L25词嵌入进阶GloVe模型

Tanya ·

更新时间:2024-11-15

· 685 次阅读

词嵌入进阶

在“Word2Vec的实现”一节中，我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型，并通过词向量的余弦相似度搜索近义词。虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量，并能一定程度上地保存词与词之间的近似关系，但 Word2Vec 模型仍不是完美的，它还可以被进一步地改进：

子词嵌入（subword embedding）：FastText 以固定大小的 n-gram 形式将单词更细致地表示为了子词的集合，而 BPE (byte pair encoding) 算法则能根据语料库的统计信息，自动且动态地生成高频子词的集合； GloVe 全局向量的词嵌入: 通过等价转换 Word2Vec 模型的条件概率公式，我们可以得到一个全局的损失函数表达，并在此基础上进一步优化模型。

实际中，我们常常在大规模的语料上训练这些词嵌入模型，并将预训练得到的词向量应用到下游的自然语言处理任务中。本节就将以 GloVe 模型为例，演示如何用预训练好的词向量来求近义词和类比词。

GloVe 全局向量的词嵌入 GloVe 模型

先简单回顾以下 Word2Vec 的损失函数（以 Skip-Gram 模型为例，不考虑负采样近似）：

−∑t=1T∑−m≤j≤m,j≠0log⁡P(w(t+j)∣w(t)) -\sum_{t=1}^T\sum_{-m\le j\le m,j\ne 0} \log P(w^{(t+j)}\mid w^{(t)}) −t=1∑T−m≤j≤m,j=0∑logP(w(t+j)∣w(t))

其中

P(wj∣wi)=exp⁡(uj⊤vi)∑k∈Vexp⁡(uk⊤vi) P(w_j\mid w_i) = \frac{\exp(\boldsymbol{u}_j^\top\boldsymbol{v}_i)}{\sum_{k\in\mathcal{V}}\exp(\boldsymbol{u}_k^\top\boldsymbol{v}_i)} P(wj∣wi)=∑k∈Vexp(uk⊤vi)exp(uj⊤vi)

是 wiw_iwi 为中心词，wjw_jwj 为背景词时 Skip-Gram 模型所假设的条件概率计算公式，我们将其简写为 qijq_{ij}qij。

注意到此时我们的损失函数中包含两个求和符号，它们分别枚举了语料库中的每个中心词和其对应的每个背景词。实际上我们还可以采用另一种计数方式，那就是直接枚举每个词分别作为中心词和背景词的情况：

−∑i∈V∑j∈Vxijlog⁡qij -\sum_{i\in\mathcal{V}}\sum_{j\in\mathcal{V}} x_{ij}\log q_{ij} −i∈V∑j∈V∑xijlogqij

其中 xijx_{ij}xij 表示整个数据集中 wjw_jwj 作为 wiw_iwi 的背景词的次数总和。

我们还可以将该式进一步地改写为交叉熵 (cross-entropy) 的形式如下：

−∑i∈Vxi∑j∈Vpijlog⁡qij -\sum_{i\in\mathcal{V}}x_i\sum_{j\in\mathcal{V}}p_{ij} \log q_{ij} −i∈V∑xij∈V∑pijlogqij

其中 xix_ixi 是 wiw_iwi 的背景词窗大小总和，pij=xij/xip_{ij}=x_{ij}/x_ipij=xij/xi 是 wjw_jwj 在 wiw_iwi 的背景词窗中所占的比例。

从这里可以看出，我们的词嵌入方法实际上就是想让模型学出 wjw_jwj 有多大概率是 wiw_iwi 的背景词，而真实的标签则是语料库上的统计数据。同时，语料库中的每个词根据 xix_ixi 的不同，在损失函数中所占的比重也不同。

注意到目前为止，我们只是改写了 Skip-Gram 模型损失函数的表面形式，还没有对模型做任何实质上的改动。而在 Word2Vec 之后提出的 GloVe 模型，则是在之前的基础上做出了以下几点改动：

使用非概率分布的变量 pij′=xijp'_{ij}=x_{ij}pij′=xij 和 q′ij=exp⁡(uj⊤vi)q′_{ij}=\exp(\boldsymbol{u}^\top_j\boldsymbol{v}_i)q′ij=exp(uj⊤vi)，并对它们取对数；为每个词 wiw_iwi 增加两个标量模型参数：中心词偏差项 bib_ibi 和背景词偏差项 cic_ici，松弛了概率定义中的规范性；将每个损失项的权重 xix_ixi 替换成函数 h(xij)h(x_{ij})h(xij)，权重函数 h(x)h(x)h(x) 是值域在 [0,1][0,1][0,1] 上的单调递增函数，松弛了中心词重要性与 xix_ixi 线性相关的隐含假设；用平方损失函数替代了交叉熵损失函数。

综上，我们获得了 GloVe 模型的损失函数表达式：

∑i∈V∑j∈Vh(xij)(uj⊤vi+bi+cj−log⁡xij)2 \sum_{i\in\mathcal{V}}\sum_{j\in\mathcal{V}} h(x_{ij}) (\boldsymbol{u}^\top_j\boldsymbol{v}_i+b_i+c_j-\log x_{ij})^2 i∈V∑j∈V∑h(xij)(uj⊤vi+bi+cj−logxij)2

由于这些非零 xijx_{ij}xij 是预先基于整个数据集计算得到的，包含了数据集的全局统计信息，因此 GloVe 模型的命名取“全局向量”（Global Vectors）之意。

载入预训练的 GloVe 向量

GloVe 官方提供了多种规格的预训练词向量，语料库分别采用了维基百科、CommonCrawl和推特等，语料库中词语总数也涵盖了从60亿到8,400亿的不同规模，同时还提供了多种词向量维度供下游模型使用。

torchtext.vocab 中已经支持了 GloVe, FastText, CharNGram 等常用的预训练词向量，我们可以通过声明 torchtext.vocab.GloVe 类的实例来加载预训练好的 GloVe 词向量。

import torch
import torchtext.vocab as vocab
print([key for key in vocab.pretrained_aliases.keys() if "glove" in key])
cache_dir = "/home/kesci/input/GloVe6B5429"
glove = vocab.GloVe(name='6B', dim=50, cache=cache_dir)
print("一共包含%d个词。" % len(glove.stoi))
print(glove.stoi['beautiful'], glove.itos[3366])

['glove.42B.300d', 'glove.840B.300d', 'glove.twitter.27B.25d', 'glove.twitter.27B.50d', 'glove.twitter.27B.100d', 'glove.twitter.27B.200d', 'glove.6B.50d', 'glove.6B.100d', 'glove.6B.200d', 'glove.6B.300d']
一共包含400000个词。
3366 beautiful

求近义词和类比词 求近义词

由于词向量空间中的余弦相似性可以衡量词语含义的相似性（为什么？），我们可以通过寻找空间中的 k 近邻，来查询单词的近义词。

def knn(W, x, k):
    '''
    @params:
        W: 所有向量的集合
        x: 给定向量
        k: 查询的数量
    @outputs:
        topk: 余弦相似性最大k个的下标
        [...]: 余弦相似度
    '''
    cos = torch.matmul(W, x.view((-1,))) / (
        (torch.sum(W * W, dim=1) + 1e-9).sqrt() * torch.sum(x * x).sqrt())
    _, topk = torch.topk(cos, k=k)
    topk = topk.cpu().numpy()
    return topk, [cos[i].item() for i in topk]
def get_similar_tokens(query_token, k, embed):
    '''
    @params:
        query_token: 给定的单词
        k: 所需近义词的个数
        embed: 预训练词向量
    '''
    topk, cos = knn(embed.vectors,
                    embed.vectors[embed.stoi[query_token]], k+1)
    for i, c in zip(topk[1:], cos[1:]):  # 除去输入词
        print('cosine sim=%.3f: %s' % (c, (embed.itos[i])))
get_similar_tokens('chip', 3, glove)

cosine sim=0.856: chips
cosine sim=0.749: intel
cosine sim=0.749: electronics
100%|█████████▉| 398393/400000 [00:30<00:00, 38997.22it/s]

get_similar_tokens('baby', 3, glove)

cosine sim=0.839: babies
cosine sim=0.800: boy
cosine sim=0.792: girl

get_similar_tokens('beautiful', 3, glove)

cosine sim=0.921: lovely
cosine sim=0.893: gorgeous
cosine sim=0.830: wonderful

求类比词

除了求近义词以外，我们还可以使用预训练词向量求词与词之间的类比关系，例如“man”之于“woman”相当于“son”之于“daughter”。求类比词问题可以定义为：对于类比关系中的4个词“aaa 之于 bbb 相当于 ccc 之于 ddd”，给定前3个词 a,b,ca,b,ca,b,c 求 ddd。求类比词的思路是，搜索与 vec(c)+vec(b)−vec(a)\text{vec}(c)+\text{vec}(b)−\text{vec}(a)vec(c)+vec(b)−vec(a) 的结果向量最相似的词向量，其中 vec(w)\text{vec}(w)vec(w) 为 www 的词向量。

def get_analogy(token_a, token_b, token_c, embed):
    '''
    @params:
        token_a: 词a
        token_b: 词b
        token_c: 词c
        embed: 预训练词向量
    @outputs:
        res: 类比词d
    '''
    vecs = [embed.vectors[embed.stoi[t]] 
                for t in [token_a, token_b, token_c]]
    x = vecs[1] - vecs[0] + vecs[2]
    topk, cos = knn(embed.vectors, x, 1)
    res = embed.itos[topk[0]]
    return res
get_analogy('man', 'woman', 'son', glove)

'daughter'

get_analogy('beijing', 'china', 'tokyo', glove)

'japan'

get_analogy('bad', 'worst', 'big', glove)

'biggest'

get_analogy('do', 'did', 'go', glove)

'went'

作者：xiuyu1860

词嵌入嵌入

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Linux使用zsh提高效率的5条建议

Glory 2021-04-25

502

Visual Studio 2017正式版离线安装教程

Alice 2021-01-04

538

python算法学习双曲嵌入论文方法与代码解析说明

Glenna 2021-12-16

604

python算法学习双曲嵌入论文代码实现数据集介绍

Faye 2021-12-16

1753

PyQt5实现将Matplotlib图像嵌入到Scoll Area中显示滚动条效果

Bertha 2021-12-16

900

嵌入式Redis服务器在Spring Boot测试中的使用教程

Serafina 2021-12-16

675

nginx 解决跨域问题嵌入第三方页面

Leonie 2021-12-16

401

C#加载嵌入到资源的非托管dll

Dolly 2021-12-16

1963

Python实现将Word表格嵌入到Excel中

Manda 2022-01-14

740

C# VB.NET 实现在Word中嵌入多媒体(视频、音频)文件

Cytheria 2022-01-14

1744

C++嵌入式内存管理详情

Sara/Sarah 2022-01-14

嵌入式Linux开发教程：获取Linux环境

Agnes 2022-01-25

1961

电脑中如何设置HP打印机嵌入式Web服务器EWS权限方法

Harriet 2022-02-28

1363

怎么在网页中嵌入百度地图？

Mathea 2022-03-03

1139

Go语言之嵌入类型详解

Roselani 2022-10-06

543

嵌入式QT移植的实现

Bianca 2022-10-24

1312

嵌入式C程序优质编写全面教程规范

Lida 2022-10-24

660

嵌入式C语言轻量级程序架构内核编写

Sally 2022-10-24

1279

基于matlab实现DCT数字水印嵌入与提取

Ida 2022-10-24

829

利用上下文属性将 C++ 对象嵌入 QML 里

Stella 2022-10-24

528

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座