NLP初学-简易聊天机器人

Paula ·

更新时间:2024-09-21

· 888 次阅读

链接：https://pan.baidu.com/s/1ZiMzKulcsEt2xo_a2XK1nw
提取码：9umt


import pandas as pd
import fool
import re
import random
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
# -----------------------------------------------------
# 加载停用词词典
stopwords = {}
with open(r'stopword.txt', 'r', encoding='utf-8') as fr:
    for word in fr:
        stopwords[word.strip()] = 0
# -----------------------------------------------------
# 定义类
class clf_model:
    """
    该类将所有模型训练、预测、数据预处理、意图识别的函数包括其中
    """
    # 初始化模块
    def __init__(self):
        self.model = ""  # 成员变量，用于存储模型
        self.vectorizer = ""  # 成员变量，用于存储tfidf统计值
    # 训练模块
    def train(self):
        """
        训练结果存储在成员变量中，没有return
        """
        # 从excel文件读取训练样本
        d_train = pd.read_excel("data_train.xlsx")
        # 对训练数据进行预处理
        d_train.sentence_train = d_train.sentence_train.apply(self.fun_clean)
        print("训练样本 = %d" % len(d_train))
        # 利用sklearn中的函数进行tifidf训练
        self.vectorizer = TfidfVectorizer(analyzer="word",
                                          token_pattern=r"(?u)\b\w+\b")  # 注意，这里自己指定token_pattern，否则sklearn会自动将一个字长度的单词过滤筛除
        features = self.vectorizer.fit_transform(d_train.sentence_train)
        print("训练样本特征表长度为 " + str(features.shape))
        # 使用逻辑回归进行训练和预测
        self.model = LogisticRegression(C=10)
        self.model.fit(features, d_train.label)
    # 预测模块（使用模型预测）
    def predict_model(self, sentence):
        # --------------
        # 对样本中没有点特殊情况做特别判断
        if sentence in ["好的", "需要", "是的", "要的", "好", "要", "是"]:
            return 1, 0.8
        # --------------
        sent_features = self.vectorizer.transform([sentence])
        pre_test = self.model.predict_proba(sent_features).tolist()[0]
        clf_result = pre_test.index(max(pre_test))
        score = max(pre_test)
        return clf_result, score
    # 预测模块（使用规则）
    def predict_rule(self, sentence):
        """
        如果模型训练出现异常，可以使用规则进行预测，同时也可以让学员融合"模型"及"规则"的预测方式
        :param sentence:
        :return 预测结果:
        """
        sentence = sentence.replace(' ', '')
        if re.findall(r'不需要|不要|停止|终止|退出|不买|不定|不订', sentence):
            return 2, 0.8
        elif re.findall(r'订|定|预定|买|购', sentence) or sentence in ["好的", "需要", "是的", "要的", "好", "要", "是"]:
            return 1, 0.8
        else:
            return 0, 0.8
    # 预处理函数
    def fun_clean(self, sentence):
        """
        预处理函数
        :输入 用户输入语句:
        :输出 预处理结果:
        """
        # 使用foolnltk进行实体识别
        words, ners = fool.analysis(sentence)
        # 对识别结果按长度倒序排序
        ners = ners[0].sort(key=lambda x: len(x[-1]), reverse=True)
        # 如果有实体被识别出来，就将实体的字符串替换成实体类别的字符串（目的是看成一类单词，看成一种共同的特征）
        if ners:
            for ner in ners:
                sentence = sentence.replace(ner[-1], ' ' + ner[2] + ' ')
        # 分词，并去除停用词
        word_lst = [w for w in fool.cut(sentence)[0] if w not in stopwords]
        output_str = ' '.join(word_lst)
        output_str = re.sub(r'\s+', ' ', output_str)
        return output_str.strip()
    # 分类主函数
    def fun_clf(self, sentence):
        """
        意图识别函数
        :输入 用户输入语句:
        :输出 意图类别，分数:
        """
        # 对用户输入进行预处理
        sentence = self.fun_clean(sentence)
        # 得到意图分类结果（0为“查询”类别，1为“订票”类别，2为“终止服务”类别）
        clf_result, score = self.predict_model(sentence)  # 使用训练的模型进行意图预测
        # clf_result, score = self.predict_rule(sentence)  # 使用规则进行意图预测（可与用模型进行意图识别的方法二选一）
        return clf_result, score
def fun_replace_num(sentence):
    """
    替换时间中的数字（目的是便于实体识别包fool对实体的识别）
    :param sentence:
    :return sentence:
    """
    # 定义要替换的数字
    time_num = {"一": "1", "二": "2", "三": "3", "四": "4", "五": "5", "六": "6", "七": "7", "八": "8", "九": "9", "十": "10",
                "十一": "11", "十二": "12"}
    for k, v in time_num.items():
        sentence = sentence.replace(k, v)
    return sentence
def slot_fill(sentence, key=None):
    """
    填槽函数（该函数从sentence中寻找需要的内容，完成填槽工作）
    :param sentence:
    :return slot: （填槽的结果）
    """
    slot = {}
    # 进行实体识别
    words, ners = fool.analysis(sentence)
    to_city_flag = 0  # flag为1代表找到到达城市（作用：当找到到达城市时，默认句子中另一个城市信息是出发城市）
    for ner in ners[0]:
        # 首先对time类别的实体进行信息抽取填槽工作
        if ner[2] == 'time':
            # --------------------
            # 寻找日期的关键词
            date_content = re.findall(
                r'后天|明天|今天|大后天|周末|周一|周二|周三|周四|周五|周六|周日|本周一|本周二|本周三|本周四|本周五|本周六|本周日|下周一|下周二|下周三|下周四|下周五|下周六|下周日|这周一|这周二|这周三|这周四|这周五|这周六|这周日|\d{,2}月\d{,2}号|\d{,2}月\d{,2}日',
                ner[-1])
            slot["date"] = date_content[0] if date_content else ""
            # 完成日期的填槽
            # --------------------
            # --------------------
            # 寻找具体时间的关键词
            time_content = re.findall(r'\d{,2}点\d{,2}分|\d{,2}点钟|\d{,2}点', ner[-1])
            # 寻找上午下午的关键词
            pmam_content = re.findall(r'上午|下午|早上|晚上|中午|早晨', ner[-1])
            slot["time"] = pmam_content[0] if pmam_content else "" + time_content[0] if time_content else ""
            # 完成时间的填槽
            # --------------------
        # 对location类别对实体进行信息抽取填槽工作
        if ner[2] == 'location':
            # --------------------
            # 开始对城市填槽
            # 如果没有指定槽位
            if key is None:
                if re.findall(r'(到|去|回|回去)%s' % (ner[-1]), sentence):
                    to_city_flag = 1
                    slot["to_city"] = ner[-1]
                    continue
                if re.findall(r'从%s|%s出发' % (ner[-1], ner[-1]), sentence):
                    slot["from_city"] = ner[-1]
                elif to_city_flag == 1:
                    slot["from_city"] = ner[-1]
            # 如果指定了槽位
            elif key in ["from_city", "to_city"]:
                slot[key] = ner[-1]
            # 完成出发城市、到达城市的填槽工作
            # --------------------
    return slot
def fun_wait(clf_obj):
    """
    等待询问函数
    :输入 None:
    :输出 用户意图类别:
    """
    # 等待用户输入
    print("\n\n\n")
    print("-------------------------------------------------------------")
    print("-------------------------------------------------------------")
    print("Starting ...")
    sentence = input("客服：请问需要什么服务？(时间请用12小时制表示）\n")
    # 对用户输入进行意图识别
    clf_result, score = clf_obj.fun_clf(sentence)
    return clf_result, score, sentence
def fun_search(clf_result, sentence):
    """
    为用户查询余票
    :param clf_result:
    :param sentence:
    :return: 是否有票
    """
    # 定义槽存储空间
    name = {"time": "出发时间", "date": "出发日期", "from_city": "出发城市", "to_city": "到达城市"}
    slot = {"time": "", "date": "", "from_city": "", "to_city": ""}
    # 使用用户第一句话进行填槽
    sentence = fun_replace_num(sentence)
    slot_init = slot_fill(sentence)
    for key in slot_init.keys():
        slot[key] = slot_init[key]
    # 对未填充对槽位，向用户提问，进行针对性填槽
    while "" in slot.values():
        for key in slot.keys():
            if slot[key] == "":
                sentence = input("客服：请问%s是？\n" % (name[key]))
                sentence = fun_replace_num(sentence)
                slot_cur = slot_fill(sentence, key)
                for key in slot_cur.keys():
                    if slot[key] == "":
                        slot[key] = slot_cur[key]
    # 查询是否有票，并答复用户（本次查询是否有票使用随机数完成）
    if random.random() > 0.5:
        print("客服：%s%s从%s到%s的票充足" % (slot["date"], slot["time"], slot["from_city"], slot["to_city"]))
        # 返回1表示有票
        return 1
    else:
        print("客服：%s%s从%s到%s无票" % (slot["date"], slot["time"], slot["from_city"], slot["to_city"]))
        print("End !!!")
        print("-------------------------------------------------------------")
        print("-------------------------------------------------------------")
        # 返回0表示无票
        return 0
def fun_book():
    """
    为用户订票
    """
    print("客服：已为您完成订票。\n\n\n")
    print("End !!!")
    print("-------------------------------------------------------------")
    print("-------------------------------------------------------------")
if __name__ == "__main__":
    # 实例化对象
    clf_obj = clf_model()
    clf_obj.train()
    threshold = 0.55  # 用户定义阈值（当分类器分类的分数大于阈值才采纳本次意图分类结果，目的是排除分数过低的意图分类结果）
    while 1:
        clf_result, score, sentence = fun_wait(clf_obj)
        # -------------------------------------------------------------------------------
        # 状态转移条件（等待-->等待）：用户输入未达到“查询”、“订票”类别的阈值 OR 被分类为“终止服务”
        # -------------------------------------------------------------------------------
        if score 查询）：用户输入分类为“查询” OR “订票”
        # -------------------------------------------------------------------------------
        else:
            search_result = fun_search(clf_result, sentence)
            if search_result == 0:
                continue
            else:
                # 等待用户输入
                sentence = input("客服：需要为您订票吗？\n")
                # 对用户输入进行意图识别
                clf_result, score = clf_obj.fun_clf(sentence)
                # -------------------------------------------------------------------------------
                # 状态转移条件（查询-->订票）：FUN_SEARCH返回有票 AND 用户输入分类为“订票”
                # -------------------------------------------------------------------------------
                if clf_result == 1:
                    fun_book()
                    continue
运行结果



作者：GlassySky0816
                    
 
                

                            nlp
                            聊天机器人
                            机器人


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
    
    
        
            HTML5中图片之间的缝隙完美解决方法
        
        
            Virginia
            2021-01-18
        
    
    
        719
    


    
        
    
    
        
            详解flex和position兼容采坑笔记
        
        
            Efia
            2021-01-18
        
    
    
        828
    


    
        
            Linux 命令之rsync命令详解
        
        
            Tesia
            2020-01-11
        
    
    
        550
    


    
        
            Python使用 TCP协议实现智能聊天机器人功能
        
        
            Madeleine
            2022-10-19
        
    
    
        1867
    


    
        
            nlp自然语言处理基于SVD的降维优化学习
        
        
            Xandy
            2022-10-23
        
    
    
        1262
    


    
        
            nlp自然语言处理学习CBOW模型类实现示例解析
        
        
            Isis
            2022-10-23
        
    
    
        600
    


    
        
            Python人工智能实战之对话机器人的实现
        
        
            Ilona
            2022-10-23
        
    
    
        895
    


    
        
            android实现数独游戏机器人
        
        
            Emma
            2022-10-24
        
    
    
        1971
    


    
        
            docker部署钉钉机器人报警通知的实现
        
        
            Lark
            2022-10-27
        
    
    
        878
    


    
        
            2022最新青龙面板对接机器人的详细过程(傻妞对接onebot(oicq)协议实现机器人功能)
        
        
            Clementine
            2022-10-27
        
    
    
        1854
    


    
        
    
    
        
            如何调用chatGPT实现代码机器人
        
        
            Nora
            2022-12-11
        
    
    
        373
    


    
        
    
    
        
            利用Ajax实现智能回答的机器人示例代码
        
        
            Querida
            2022-12-25
        
    
    
        1121
    


    
        
    
    
        
            半小时实现基于ChatGPT搭建微信机器人
        
        
            Lark
            2023-02-16
        
    
    
        750
    


    
        
            kotlin实现语音聊天机器人案例详解
        
        
            Endora
            2023-02-25
        
    
    
        1980
    


    
        
    
    
        
            Python基于Google Bard实现交互式聊天机器人
        
        
            Serafina
            2023-03-25
        
    
    
        589
    


    
        
            Python NLP开发之实现聊天机器人
        
        
            Netany
            2023-05-12
        
    
    
        1951
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座