记
Φ(x)=11+e−θx
\Phi(x)=\frac{1}{1+e^-{\theta x}}
Φ(x)=1+e−θx1
我们可以把这个sigmoid函数的值看做y等于1的后验估计概率,也就是:
p(y=1∣x)=Φ(x)
p(y=1|x)=\Phi(x)
p(y=1∣x)=Φ(x)
那么y=0的时候自然是补事件
p(y=0∣x)=1−Φ(x)
p(y=0|x)=1-\Phi(x)
p(y=0∣x)=1−Φ(x)
我们可以把这两个式子简化一下,得到
p(y∣x)=Φ(x)y(1−Φ(x))1−y
p(y|x)=\Phi(x)^y(1-\Phi(x))^{1-y}
p(y∣x)=Φ(x)y(1−Φ(x))1−y
接下来就是极大似然估计:
L(ω)=∏i=1np(yi∣xi;ω)
L(\omega)=\prod_{i=1}^{n}{p(y^i|x^i;\omega)}
L(ω)=i=1∏np(yi∣xi;ω)
极大似然估计要求导,如果是连乘式求导不方便,我们可以用对数划开,就可以得到
l(ω)=lnL(ω)=∑i=1nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))
l(\omega)=lnL(\omega)=\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}
l(ω)=lnL(ω)=i=1∑nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))
这样求出来的参数ω\omegaω是令l(ω)l(\omega)l(ω)最大的参数,我们是希望这个尽可能小,因为你仔细看就会发现l(ω)l(\omega)l(ω)其实就是损失函数的正值,那我们在前面添上个负号,就可以求得最小的损失函数值。
J(w)=−l(w)=−∑i=1nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))
J(w)=−l(w)=-\sum_{i=1}^{n}{y^iln(\Phi(x^i)+(1−y^i)ln(1−\Phi(x^i))}
J(w)=−l(w)=−i=1∑nyiln(Φ(xi)+(1−yi)ln(1−Φ(xi))