梯度下降法会引起局部最优值的可能。
1、初始化一个w值
2、传入数据集,进行对w的调整
3、最后输出一个最优的w,解决了识别的任务(有可能是局部最优)
人工智能主要对识别的结果进行概率分析,根据概率最大的结果进行输出。概率论在人工智能中的应用非常重要。
2.1 条件概率P(A∣B)=P(AB)P(B) P(A|B)=\cfrac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
2.2 全概率公式P(A)=∑iP(A∣Bi)P(Bi) P(A)=\sum\limits_{i}P(A|B_i)P(B_i) P(A)=i∑P(A∣Bi)P(Bi)
2.3 贝叶斯公式当直接进行求解时比较复杂,则使用贝叶斯公式进行转换求解:
P(A∣B)=P(B∣A)P(A)P(B)
P(A|B)=\cfrac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
二项分布是重复N次的伯努利分布,伯努利分布是指试验结果为:0,1,其中一个概率为p,另一个概率为1-p; 而二项分布是指进行n次伯努利分布试验,1或0 的出现k次的概率;简单理解,就是伯努利分布是只进行一次试验求概率,而二项分布是进行次数大于1次。
举例: