分类问题需要得到离散的预测输出,一个简单的办法是将输出值oio_ioi当做预测类别是i的置信度,并将值最大的输出所对应的类作为预测输出,即输出argmaxioiargmax_io_iargmaxioi。例如,如果o1,o2,o3o_1,o_2,o_3o1,o2,o3分别为0.1,10,0.1,由于o2o_2o2最大,那么预测类别为2。
然而,直接使用输出层的输出有两个问题。一方面,由于输出层的输出值的范围不确定,难以直观判断这些值的意义。例如,上面举的例子中的输出值10表示很置信图像类别为猫,因为该输出值是其它两类的输出值的100倍。但是如果o1=o3=103o_1=o_3=10^3o1=o3=103,那么输出值10又表示图像类别为猫的概率很低。另一方面,由于真实标签是离散值,这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算解决了以上两个问题,它通过下面公式将输出值变换成值为正且和为1的概率分布:y1^,y2^,y3^=softmax(o1,o2,o3)\hat{y_1},\hat{y_2},\hat{y_3}=softmax(o_1,o_2,o_3)y1^,y2^,y3^=softmax(o1,o2,o3)其中y1^=exp(o1)∑i=13exp(oi),y2^=exp(o2)∑i=13exp(oi),y3^=exp(o3)∑i=13exp(oi)\hat{y_1}=\frac{exp(o_1)}{\sum_{i=1}^3exp(o_i)},\hat{y_2}=\frac{exp(o_2)}{\sum_{i=1}^3exp(o_i)},\hat{y_3}=\frac{exp(o_3)}{\sum_{i=1}^3exp(o_i)}y1^=∑i=13exp(oi)exp(o1),y2^=∑i=13exp(oi)exp(o2),y3^=∑i=13exp(oi)exp(o3)容易看出y1^+y2^+y3^=1\hat{y_1}+\hat{y_2}+\hat{y_3}=1y1^+y2^+y3^=1且0≤y1^,y2^,y3^≤10\leq\hat{y_1},\hat{y_2},\hat{y_3}\leq10≤y1^,y2^,y3^≤1,因此y1^,y2^,y3^\hat{y_1},\hat{y_2},\hat{y_3}y1^,y2^,y3^是一个合法的概率分布。此外,argmaxioi=argmaxiyi^argmax_io_i=argmax_i\hat{y_i}argmaxioi=argmaxiyi^因此softmax不改变预测类别输出。
二、交叉熵损失函数使用softmax运算可以更方便地与离散标签计算误差,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以用类别分布表达:对于样本i,我们构造向量y(i)∈Rqy^{(i)}\in \mathbb{R}^qy(i)∈Rq,使其第y(i)y^{(i)}y(i)(样本i类别的离散数值)个元素为1,其余为0。这样训练目标可以设为使预测概率分布y^(i)\hat{y}^{(i)}y^(i)尽可能接近真实的标签概率分布y(i)y^{(i)}y(i)。
我们可以像线性回归那样使用平方损失函数∣∣y^(i)−y(i)∣∣2/2||\hat{y}^{(i)}-y^{(i)}||^2/2∣∣y^(i)−y(i)∣∣2/2。然而,想要预测分类结果正确,其实并不需要预测概率完全等于标签概率。例如在图像分类中,如果y(i)=3y^{(i)}=3y(i)=3,那么只需要y^3(i)\hat{y}_3^{(i)}y^3(i)比其它两个预测值y^1(i)\hat{y}_1^{(i)}y^1(i)和y^2(i)\hat{y}_2^{(i)}y^2(i)大就可以了。即使y^3(i)\hat{y}_3^{(i)}y^3(i)的值为0.6,不管其它两个预测值是多少,类别预测均正确。而平方损失则过于严格,例如y^1(i)=y^2(i)=0.2\hat{y}_1^{(i)}=\hat{y}_2^{(i)}=0.2y^1(i)=y^2(i)=0.2比y^1(i)=0,y^2(i)=0.4\hat{y}_1^{(i)}=0,\hat{y}_2^{(i)}=0.4y^1(i)=0,y^2(i)=0.4的损失要小得多,虽然两者都有同样正确的分类预测结果。
改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中,交叉熵是一个常用的测量方法:H(y(i),y^(i))=−∑j=1qyj(i)logy^j(i)H(y^{(i)},\hat{y}^{(i)})=-\sum_{j=1}^qy_j^{(i)}log\hat{y}_j^{(i)}H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i)其中带下标的yj(i)y_j^{(i)}yj(i)是向量y(i)y^{(i)}y(i)中非0即1的元素,需要注意将它与样本i类别的离散数值,即不带下标的y(i)y^{(i)}y(i)区分。在上式中,我们知道向量y(i)y^{(i)}y(i)中只有第y(i)y^{(i)}y(i)个元素yy(i)(i)y^{(i)}_{y^{(i)}}yy(i)(i)为1,其余全为0。于是H(y(i),y^(i))=−logy^y(i)(i)H(y^{(i)},\hat{y}^{(i)})=-log\hat{y}_{y^{(i)}}^{(i)}H(y(i),y^(i))=−logy^y(i)(i)。也就是所,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。当然,遇到一个样本有多个标签时,例如图片里含有不止一个物体时,并不能做这一步简化。但即使对于这种情况,交叉熵同样只关心对图像中出现的物体类别的预测概率。
假设训练数据集的样本数为n,交叉熵损失函数定义为ι(θ)=1n∑i=1nH(y(i),y^(i))\iota (\theta)=\frac{1}{n}\sum_{i=1}^nH(y^{(i)},\hat{y}^{(i)})ι(θ)=n1i=1∑nH(y(i),y^(i))其中θ\thetaθ代表模型参数。同样地,如果每个样本只有一个标签,那么交叉熵损失函数可以简写成ι(θ)=−1n∑i=1nlogy^y(i)(i)\iota (\theta)=-\frac{1}{n}\sum_{i=1}^nlog\hat{y}_{y^{(i)}}^{(i)}ι(θ)=−n1∑i=1nlogy^y(i)(i)。从另一个角度看,我们知道最小化ι(θ)\iota(\theta)ι(θ)等价于最大化exp(−nι(θ))=∏i=1ny^y(i)(i)exp(-n\iota(\theta))=\prod_{i=1}^n\hat{y}^{(i)}_{y^{(i)}}exp(−nι(θ))=∏i=1ny^y(i)(i),即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。