python之KMP详解

Vera ·

更新时间:2024-11-14

· 922 次阅读

KMP具体是什么我们这里就不做介绍了，我们先从生活中的例子来一步一步进行讲解

先我们有S=“BBCABCDABABCDABCDABDE”

P=“ABCDABD”

我们现在要做的事就是去匹配S和P，算算P在S的那个位置

实际结果就是 S=“BBCABCDABABCDABCDABDE”

P=“________________ABCDABDE”

OK,我们把P右移了13位，也就是M=S[13:13+len(P)] = P

我们先从本质来看看我们究竟要干什么，M=P了，则我们知道位移i=13，len（P）=8，

那么：


S[i+0] = P[0]
S[i+1] = P[1]
S[i+2] = P[2]
S[i+3] = P[3]
S[i+4] = P[4]
S[i+5] = P[5]
S[i+6] = P[6]
S[i+7] = P[7]

也就是说，我们只需要求出P的长度以及位移i的值，我们就知道P究竟在哪里和S的某一段子字符串相匹配了。
我们先来个初级求解

# 求模式串P在T中的起始位置
# version:1.0
T = "abacaabacabacabaabb"*1000
P = "abacab"
for t_key, t in enumerate (T):
    if T[t_key:(t_key+len (P))] == P:
        print(t_key)
输出为5,9。意思就是在T里面有2个子串和P匹配。求解思路就是先T[0]和P[0]比，通过了，就继续第二个字符比，依次类推。
全部通过了及T[t_key:(t_key+len (P))] == P，我们就算找到了他的起始位置了。
如果其中一项不匹配呢？我们就继续迭代T，这样就是每次都把T，P轮流迭代，一发现不对头，我们就又去把T的下标前进一位继续迭代，你是不是觉得这样的方式非常的麻烦。
我们继续从初级思想出发，我们从上题来看，我们T[0]开始，第一次匹配6个长度的字符串失败了对不，我们就去T[1]去找，但T[1]明显不是a开头的啊，我们可否直接跳过？
OK，那我们现在就给我们的P打上下标吧

P[0]="a"
P[1]="b"
p[2]="a"
p[3]="c"
P[4]="a"
P[5]="b"
为了检测效果，我们就把T串扩大50000呗吧，先来看看1.0版本的执行时间

#coding:utf-8
import time
# 求模式串P在T中的起始位置
T = "abacaabacabacabaabb" * 50000
P = "abacab"
begin = time. time()
result = []
j=0
m=0
_id = len(T)
while 1:
    if _id<len(P):
        break
    for i in range(len(P)):
        if P[i]==T[i]:
            m+=1
            if m==len(P):
                result.append(j)              
                j+=1
                T = T[1:]
                _id-=1
                m=0
                break
        else:
            j+=1
            T = T[1:]
            _id-=1
            m=0
            break
#print(result)
print(time.time()-begin)
耗时：17.317999839782715秒
下面接着我们的1.1版本了

#coding:utf-8
import time
# 求模式串P在T中的起始位置
#此时我们遇到P[1]直接就跳过去
T = "abacaabacabacabaabb" * 50000
P = "abacab"
begin = time.time ()
result = []
j = 0
m = 0
_id = len (T)
while 1:
    if _id <len (P):
        break
    for i in range (len (P)):
        if P[i] == T[i]:
            m += 1
            if i == 0 and P[i + 1] != T[i + 1] and T[i+1]!=T[i]:
                j += 2
                T = T[2:]
                _id -= 2
                m = 0
                break
            if m == len (P):
                result.append (j)
                j += 1
                T = T[1:]
                _id -= 1
                m = 0
                break
        else:
            j += 1
            T = T[1:]
            _id -= 1
            m = 0
            break
# print (result)
print (time.time () - begin)
耗时：14.82200002670288秒
还不错，比之前优化了很多了，但此时我们只是要求第一次匹配成功，第二次一旦不一样我们就立马把T右移2位。
这只是一个基础思想，现在我们要做的就是寻找其中的规律了。
我们继续来观察一下P的各个元素吧

P[0]="a"
P[1]="b"
p[2]="a"
p[3]="c"
P[4]="a"
P[5]="b"
我们假设模式串是P[0:2]，ok,我们现在发现只要第二个匹配不符合且第二个元素不等于第一个元素，我们就可以直接右移2位，等于的情况下我们就右移1位。
（a,b），前缀可以是a,,后缀是b,无交集，当第二位是b的时候，我们可以右移2位，当第二位是a的时候，我们就要右移1位。
也就是 如下图：

我们假设模式串是P[0:3]，ok,前面的规则依然是符合的，我们现在只是新加了P[3]进来。
(a,b,a)，前缀可以是a,ab,后缀可以是ba,a,交集为a，当第三位是a的时候，我们右移为0，当第三位是非a的时候，我们就要右移3位。结果如图:

我们再假设模式串是P[0:4],ok,前面的规则依然是符合的，我们现在只是新加了P[4]进来。
(a,b,a,c)，前缀可以是a,ab，aba,后缀可以是bac,ac,a,交集为a，当第四位是c的时候，我们可以右移4位，当第四位是b的时候，我们就要右移2位。结果如图:

好了，我们不继续举例了。
从图中我们可以知道，只要我们的模式串的前缀和后缀有交集，那么我们的右移位数最小就等于已匹配的位数-前后缀的交集数。
为什么这么说呢？
我们设想一下，前面我们已经匹配了，是匹配的什么，匹配的前缀，我们来看原模式串，P(abacab)的所有的前缀:
a,ab,aba,abac,abaca。我们去匹配，不就是第一个前缀匹配成功，再去匹配第二个前缀，再第三，第四....一直持续到全部匹配吗？这些匹配信息我们就可以拿来利用了。那我们如果第一个成功，第二个没成功怎么办？我们难道就暴力破解，直接右移一次？好的，那我们假设第二次匹配就是ad呢，我们明明知道d不可能等于a，我们为什么不干脆直接右移2位呢？这不就少了一次for循环的计算过程了吗？
我们继续举例，这次来一个大家都玩过的游戏，火车接力扑克游戏，你一张，我一张，遇到一样的就把前面对应的全部吃掉。。
你不会没玩过吧？那你的童年可真的太可怜了，哈哈哈哈哈。我们还是贴个图说明一下吧，7和7一样，那么你就可以把7到7的所有扑克牌都拿走了。如图

这里利用了什么信息呢，前面有个7了，我去匹配，一直到我的牌出现另一个7再算匹配成功。
也就是类似a（xxxxxxxxxx...xxxxxxxx）a，也就是我下一次不匹配，我就右移一位，还不匹配，我又右移一位，一直到匹配为止。
只不过我们这里不停的变化了我们的a，里面有无数的a嵌套在里面而已。也就是我们的P在不停的变化。这里的前后缀的交集永远为1。
aba（x）不是吗？我前面有个a的前缀了，我的后缀出现了另一个a，那我是不是下次就可以直接右移2次了，反正中间的b是不可能在下一次for循环的第一次迭代成功的嘛！所以我右移位数=已匹配位数-已匹配字符串的前后缀交集数
我们现在转过来看这就是一个next函数，也就是f（x）=x-set（x）
我们先把set（x）算出来，让它变成一个常量。

def intersection(P):
    offset_table = {}  # 位移对照表
    for length in range (len (P)):
        new_P = P[:length + 1]
        prefix = set ()  # 前缀
        suffix = set ()  # 后缀
        if len (new_P) < 2:
            offset_table.update ({length: 0})
        else:
            for j in range (1, len (new_P)):
                prefix.add (new_P[:len (new_P) - j])
                suffix.add (new_P[j:])
            offset = prefix & suffix
            index = len (offset)
            offset_table.update ({length: index})
    return offset_table
OK，现在我们来升级我们的代码为1.2版本看看效果

import time
# 求模式串P在T中的起始位置
# 此时我们遇到P[1]直接就跳过去
def intersection(P):
    offset_table = {}  # 位移对照表
    for length in range (len (P)):
        new_P = P[:length + 1]
        prefix = set ()  # 前缀
        suffix = set ()  # 后缀
        if len (new_P) < 2:
            offset_table.update ({length: 0})
        else:
            for j in range (1, len (new_P)):
                prefix.add (new_P[:len (new_P) - j])
                suffix.add (new_P[j:])
            offset = prefix & suffix
            index = len (offset)
            offset_table.update ({length: index})
    return offset_table
T = "abacaabacabacabaabb" * 50000
P = "abacab"
offset_table = intersection (P)
begin = time.time ()
result = []
j = 0
m = 0
_id = len (T)
while 1:
    if _id < len (P):
        break
    for i in range (len (P)):
        offset = i - offset_table.get (i)
        if T[i] != P[i]:
            if i == 0:
                T = T[1:]
                j += 1
                _id -= 1
                m = 0
                break
            T = T[offset:]
            j += offset
            _id -= offset
            m=0
            break
        else:
            m += 1
            if m == len (P):
                m = 0
                result.append (j)
                _id -= offset
                j += offset
                T = T[offset:]
                break
print (time.time () - begin)
耗时：5.890999794006348秒
OK，我们的效率大大提升了，我们现在可以把代码再优化一下了


作者：胡桓
                    
 
                

                            kmp
                            Python


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
            网页表单元素Input的高级用法11例
        
        
            Abina
            2020-08-03
        
    
    
        574
    


    
        
            Docker部署Python应用的方法实现
        
        
            Madge
            2023-07-22
        
    
    
        687
    


    
        
            一文详解Python中多进程和进程池的使用方法
        
        
            Serafina
            2023-07-24
        
    
    
        338
    


    
        
            Python中常用功能的实现代码分享
        
        
            Kathy
            2023-07-24
        
    
    
        934
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592
    


    
        
    
    
        
            python中os模块和sys模块的使用详解
        
        
            Pandora
            2023-08-28
        
    
    
        600
    


    
        
            Python中的QPixmap用法详解
        
        
            Tani
            2023-08-28
        
    
    
        951
    


    
        
            python人工智能算法之线性回归实例
        
        
            Diane
            2023-08-28
        
    
    
        527


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座