[文本语义相似] 基于ngram-tf-idf的余弦距离

Jessica ·

更新时间:2024-11-15

· 505 次阅读

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于ngram-tf-idf的余弦距离计算相似度。

本节将介绍两种实现：基于sklearn 和基于gensim

基于sklearn的方式如下：


import os
import re
import jieba
import pickle
import logging
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer 
class StopWords(object):
    '''
    '''
    def __init__(self, stopwords_file=stopwords_file ):
        self.stopwords = set( [ word.strip() for word in open(stopwords_file, 'r') ] )
    def del_stopwords(self, words):
        return [ word for word in words if word not in self.stopwords ]
stop_word = StopWords()
# gen 3-gram
def _list_3_ngram(words, n=3, m=2):
    pattern1 = re.compile(r'[0-9]')
    if len(words) < n:
        n = len(words)
    temp=[words[i - k:i] for k in range(m, n + 1)                                     
    
                 
                了解本专栏
                订阅专栏 解锁全文


作者：MachineLP
                    
 
                

                            idf
                            tf-idf
                            余弦


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            html借助marquee实现文字左右滚动
        
        
            Natalia
            2020-10-07
        
    
    
        709
    


    
        
            checkbox与文字混排无法对齐导致不美观的解决方法
        
        
            Jacinthe
            2020-02-10
        
    
    
        775
    


    
        
    
    
        
            python 实现矩阵按对角线打印
        
        
            Lala
            2021-06-03
        
    
    
        513
    


    
        
            ESP-IDF 编程入门知识点（不定期更新）
        
        
            Honey
            2020-07-26
        
    
    
        663
    


    
        
            TF-IDF算法示例代码
        
        
            Gail
            2021-03-24
        
    
    
        535
    


    
        
    
    
        
            python基础教程：python代码如何实现余弦相似性计算
        
        
            Raissa
            2020-01-13
        
    
    
        784
    


    
        
    
    
        
            基于离散余弦变换（DCT）傅里叶变换（DFT）小波变换（DWT）的彩色图像数字水印的嵌入、提取简介及MATLAB实现
        
        
            Frieda
            2020-08-19
        
    
    
        751
    


    
        
            esp-idf 中查询 Wi-Fi 连接失败的原因
        
        
            Jasmine
            2021-06-07
        
    
    
        971
    


    
        
    
    
        
            [文本语义相似] 基于ngram-tf-idf的余弦距离
        
        
            Jessica
            2020-10-26
        
    
    
        505
    


    
        
            esp-iot-solution 项目移植到新版 esp-idf
        
        
            Fawn
            2021-05-25
        
    
    
        886
    


    
        
            [文本语义相似] 基于bow的余弦距离
        
        
            Jenny
            2021-08-06
        
    
    
        560
    


    
        
            iOS利用余弦函数实现卡片浏览工具
        
        
            Radinka
            2020-12-22
        
    
    
        660
    


    
        
            python代码如何实现余弦相似性计算
        
        
            Nabila
            2021-04-01
        
    
    
        969
    


    
        
            PHP数据分析引擎计算余弦相似度算法示例
        
        
            Phedra
            2020-01-01
        
    
    
        540
    


    
        
            如何使用php绘制在图片上的正余弦曲线
        
        
            Farrah
            2020-02-10
        
    
    
        779
    


    
        
    
    
        
            matplotlib绘制正余弦曲线图的实现
        
        
            Carly
            2021-12-13
        
    
    
        1956
    


    
        
    
    
        
            python实现余弦相似度文本比较的示例
        
        
            Lani
            2021-12-16
        
    
    
        555
    


    
        
            C语言实现在控制台打印余弦曲线
        
        
            Kitty
            2023-02-25
        
    
    
        1200
    


    
        
    
    
        
            Python使用tf-idf算法计算文档关键字权重并生成词云的方法
        
        
            Lillian
            2023-03-17
        
    
    
        197


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座