[文本语义相似] 基于bow的余弦距离

Jenny ·

更新时间:2024-11-15

· 560 次阅读

文本相似在问答系统中有很重要的应用，如基于知识的问答系统（Knowledge-based QA），基于文档的问答系统（Documen-based QA），以及基于FAQ的问答系统（Community-QA）等。像对于问题的内容，需要进行相似度匹配，从而选择出与问题最接近，同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。

本节将介绍两种实现：基于sklearn 和基于gensim

基于sklearn的方式如下：


import os
import jieba
import pickle
import logging
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer 
class StopWords(object):
    '''
    '''
    def __init__(self, stopwords_file=stopwords_file ):
        self.stopwords = set( [ word.strip() for word in open(stopwords_file, 'r') ] )
    def del_stopwords(self, words):
        return [ word for word in words if word not in self.stopwords ]
stop_word = StopWords()
# 是否分词、  及其停用词语
def _seg_word(words_list, jieba_flag=True, del_stopword=False):
    if jieba_flag:
        word_list = [[stop_word.del_stopwords(words) if del_stopword else word for word in jieba.                                    
    
                 
                了解本专栏
                订阅专栏 解锁全文


作者：MachineLP
                    
 
                

                            余弦


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            html借助marquee实现文字左右滚动
        
        
            Natalia
            2020-10-07
        
    
    
        709
    


    
        
    
    
        
            opencv3/C++ 离散余弦变换DCT方式
        
        
            Aine
            2020-01-15
        
    
    
        530
    


    
        
    
    
        
            TF-IDF与余弦相似性的应用（三）：自动摘要
        
        
            Meta
            2020-10-27
        
    
    
        708
    


    
        
    
    
        
            TF-IDF与余弦相似性的应用（二）：找出相似文章
        
        
            Tertia
            2021-03-10
        
    
    
        780
    


    
        
            基于用户的协同过滤推荐算法原理、过程、代码实现 基于用户项目评分的协同过滤推荐算法程序 余弦、修正余弦、person皮尔森算法、欧几里得距离公式等相似度算法 movielens电影评分数据集
        
        
            Ingrid
            2020-08-23
        
    
    
        906
    


    
        
            基于项目的协同过滤推荐算法原理、过程、代码实现 基于项目评分的协同过滤推荐算法程序 余弦、修正余弦、person皮尔森算法、欧几里得距离公式等相似度算法 movielens电影评分数据集
        
        
            Theodosia
            2021-05-21
        
    
    
        731
    


    
        
    
    
        
            keras学习率余弦退火CosineAnnealing
        
        
            Katherine
            2020-06-10
        
    
    
        861
    


    
        
    
    
        
            泛统计理论初探——余弦距离简介
        
        
            Danica
            2021-02-14
        
    
    
        577
    


    
        
    
    
        
            ML之MIC：利用有无噪音的正余弦函数理解相关性指标的不同(多图绘制Pearson系数、最大信息系数MIC)
        
        
            Tricia
            2020-04-08
        
    
    
        662
    


    
        
    
    
        
            python基础教程：Python绘制正余弦函数图像的方法
        
        
            Heather
            2020-03-13
        
    
    
        993
    


    
        
    
    
        
            python基础教程：python代码如何实现余弦相似性计算
        
        
            Raissa
            2020-01-13
        
    
    
        784
    


    
        
    
    
        
            基于离散余弦变换（DCT）傅里叶变换（DFT）小波变换（DWT）的彩色图像数字水印的嵌入、提取简介及MATLAB实现
        
        
            Frieda
            2020-08-19
        
    
    
        751
    


    
        
    
    
        
            [文本语义相似] 基于ngram-tf-idf的余弦距离
        
        
            Jessica
            2020-10-26
        
    
    
        505
    


    
        
            [文本语义相似] 基于bow的余弦距离
        
        
            Jenny
            2021-08-06
        
    
    
        560
    


    
        
            iOS利用余弦函数实现卡片浏览工具
        
        
            Radinka
            2020-12-22
        
    
    
        660
    


    
        
            python代码如何实现余弦相似性计算
        
        
            Nabila
            2021-04-01
        
    
    
        969
    


    
        
            PHP数据分析引擎计算余弦相似度算法示例
        
        
            Phedra
            2020-01-01
        
    
    
        540
    


    
        
            如何使用php绘制在图片上的正余弦曲线
        
        
            Farrah
            2020-02-10
        
    
    
        779
    


    
        
    
    
        
            matplotlib绘制正余弦曲线图的实现
        
        
            Carly
            2021-12-13
        
    
    
        1956
    


    
        
    
    
        
            python实现余弦相似度文本比较的示例
        
        
            Lani
            2021-12-16
        
    
    
        555


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座