NLP dream 系列总结 1 词的向量化

Chynna ·
更新时间:2024-09-21
· 955 次阅读

词袋模型

就是类似有个集合中有很多个词,根据来的句子中的分词结果进行描述结果,然后生成一个向量,其实每个词出现了几次就是几,
1 其中词袋的维度和最终的句子向量的维度是一样的
2不能体现词前后位置

NNLM

词向量:是利用一定维度向量来表示某个词袋中所有词
神经概率语言模型
有某句话,然后根据前面一些词可以预测得到下个词是什么,其中通过softmax进行概率计算。
在这里插入图片描述神经网路语言模型 就是根据贝叶斯概率公式 计算某句话产生的概率
在这里插入图片描述在这里插入图片描述先分词 然后随机初始化所有词的向量,然后 根据预料 对上述神经网络进行训练 输出连接一个softmax得到下个词的概率。
设置损失函数,然后对 神经网络的参数 以及 随机初始化的 向量一起进行优化,可以得到 优化后的参数,这样不仅得到了一个优化后的模型,还得到一个优化后的向量C(词向量)
在这里插入图片描述

word2vec

word2vec cbow 前后得中间词 小数据
skim-garam 中间得前后 大数据

在这里插入图片描述
在这里插入图片描述
word2vec 后面接
hierarchical softmax 和negative sampling 都可以word2vec后面的优化过程

参考:https://www.cnblogs.com/peghoty/p/3857839.html


作者:丁叔叔



nlp

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章