中文分词指将一个汉字序列切分成一个个单独的词。
中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类中文分词主要分为:基于规则分词、基于概率统计分词。
基于规则分词原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配
正向最大匹配法(forward maximum matching method, FMM)参考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543
逆向最大匹配法(backward maximum matching method, BMM)参考博客:https://blog.csdn.net/lalalawxt/article/details/75477931
双向最大匹配法(Bi-directction Matching method,BM)参考博客:https://blog.csdn.net/chenlei0630/article/details/40710441
基于概率统计分词原理:统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。
统计语言模型(n-gram)(基于统计)
参考博客:https://blog.csdn.net/App_12062011/article/details/88353423
隐马尔科夫模型(HMM),条件随机场(CRF)等(基于序列标注)参考博客:https://blog.csdn.net/App_12062011/article/details/88353423