CMU10414-Fall2022课程笔记
本文最后更新于 2025年6月25日 晚上
课程笔记
softmax
- 监督学习/无监督学习
- 假设函数/损失函数/优化方法
- 有些err函数是不可微分的,所以用softmax(激活函数,引入非线性层)->交叉熵(-log)作为损失函数
- 转换为优化问题,使用梯度下降/随机梯度下降
设为样本数,为特征数,为分类数
为假设函数,为在上的分量
softmax为:
softmax存在数值爆炸问题,可以对,映射范围为0~1,每个分量和为1
softmax_loss为:
对求偏导:
如果,,则偏导为:
批量梯度下降,选择个样本然后算出梯度平均,然后对参数立即更新
neural networks
- 引入非线性层
- 有几个W(权重)就是几层网络
- 对于一个两层网络的梯度推导:
- 对于多层:
通过反向传播计算到,从而可以算出梯度(需要保留前向传播算出的)
automatic differentiation
- forward mode AD
这种方法一次只能计算出,对于还要再传播一次
- reserve mode AD
使用反向的方法可以一次推导出所需要的所有偏导数
- reserve mode AD by extending computational graph
使用扩展计算图,可以方便计算梯度的梯度
fully connected networks
- matrix broadcasting(does not copy any data)
CMU10414-Fall2022课程笔记
https://gentlecold.top/20250619/cmu10414-note/