随机梯度下降(SGD)是一种迭代优化方法,用于最小化可微分目标函数。与标准梯度下降不同,SGD在每次迭代中仅使用一个或少量样本来计算梯度,而不是整个训练集。这种方法的随机性来源于样本的随机选择或混洗,而不是按照训练集中出现的顺序选择。SGD被认为是随机的,因为它依赖于随机样本来估……

阅读全文