nlp入门基础之语言模型

Tyne ·

更新时间:2024-11-14

· 567 次阅读

nlp入门基础之语言模型 文章目录nlp入门基础之语言模型1. 简介2. n元语法 1. 简介
一段自然语言文本可以看做是一个离散时间序列s=ω1,ω2,⋯ ,ωTs=\omega_1,\omega_2,\cdots,\omega_Ts=ω1,ω2,⋯,ωT，而一个语言模型的作用是构建这个时间序列的概率分布P(s)P(s)P(s)。概率计算公式可以表示为：
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(s)&=P(\omega…
假设词汇表大小为VVV，由上式可以看到，产生第iii个词ωi\omega_iωi的概率是由已经产生的i−1i-1i−1个词ω1,ω2,⋯ ,ωi−1\omega_1,\omega_2,\cdots,\omega_{i-1}ω1,ω2,⋯,ωi−1决定的，那么我们必须考虑所有Vi−1V^{i-1}Vi−1种不同历史情况下，产生第iii个词的概率。这样模型中就会有ViV^iVi个自由参数。这在实际中几乎是无法从训练数据中估计出这些参数的。因此需要引入语言模型来降低参数个数。
语言模型有基于统计模型的，比如n元语法（n-gram），也有基于神经网络的。
2. n元语法
n元语法(n-grams)是基于n-1阶马尔科夫链的概率语言模型，也即
P(ω1,ω2,⋯ ,ωT)=∏t=1TP(ωt∣ωt−(n−1),ω2,⋯ ,ωt−1)(2-1) P(\omega_1,\omega_2,\cdots,\omega_T)=\prod_{t=1}^{T}P(\omega_t|\omega_{t-(n-1)},\omega_2,\cdots,\omega_{t-1})\\\tag{2-1} P(ω1,ω2,⋯,ωT)=t=1∏TP(ωt∣ωt−(n−1),ω2,⋯,ωt−1)(2-1)
由上式可知，在n-gram模型中，一个词的出现概率只与前面n-1个词有关。
n=1: unigram，每个词独立于历史 n=2: bigram，每个词只与它前面的一个词有关。实际中常用 n=3: trigram，每个词只与它前面的两个词有关
n元语法模型可能的缺陷：
参数空间过大数据稀疏
作者：lankuohsing

模型 nlp

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

详解flex和position兼容采坑笔记

Efia 2021-01-18

828

Go语言中结构体方法副本传参与指针传参的区别介绍

Rebecca 2021-05-19

817

Android进阶之从IO到NIO的模型机制演进

Kathy 2023-02-01

1279

pytorch实现模型剪枝的操作方法

Sabah 2023-02-26

256

模型训练时GPU利用率太低的原因及解决

Winola 2023-02-26

499

JavaScript中颜色模型的基础知识与应用详解

Qamar 2023-02-26

1859

pytorch网络模型构建场景的问题介绍

Tia 2023-03-11

227

详解通过OSI七层模型打开计算机网络大门

Pandora 2023-03-27

867

python多进程中的生产者和消费者模型详解

Fawn 2023-03-27

342

Python生产者与消费者模型中的优势介绍

Rose 2023-03-27

891

详解Three.js 场景中如何彻底删除模型和性能优化

Tia 2023-04-18

1310

基于Pydantic封装的通用模型在API请求验证中的应用详解

Dulcea 2023-05-02

336

Flutter 模型动态化赋值研究分析

Kirima 2023-05-12

1159

Python NLP开发之实现聊天机器人

Netany 2023-05-12

1951

Docker AIGC等大模型深度学习环境搭建步骤最新详细版

Jacinda 2023-05-13

1807

Tensorflow训练模型默认占满所有GPU的解决方案

Bella 2023-05-13

714

利用Pytorch实现ResNet网络构建及模型训练

Tanisha 2023-05-27

1264

DenseNet121模型实现26个英文字母识别任务

Pandora 2023-07-01

1833

linux环境部署清华大学大模型最新版chatglm2-6b图文教程

Carly 2023-07-20

547

大语言模型的开发利器langchainan安装使用快速入门学习

Irma 2023-07-20

829

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座