查表可知,最后一个匹配字符B对应的”部分匹配值”为2,因此按照下面的公式算出向后移动的位数:
移动位数 = 已匹配的字符数 - 对应的部分匹配值
因为 6 - 2 等于4,所以将搜索词向后移动4位。
首先,要了解两个概念:”前缀”和”后缀”。 “前缀”指除了最后一个字符以外,一个字符串的全部头部组合;”后缀”指除了第一个字符以外,一个字符串的全部尾部组合。
“部分匹配值”就是”前缀”和”后缀”的最长的共有元素的长度。以”ABCDABD”为例,
“ABCDABD”的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
#!/usr/bin/env python
#-*- coding:utf-8 -*-
def kmp_match(s, p):
match_idx = []
m = len(s) # 完整字符串
n = len(p) # 需要查询字串
cur = 0 # 搜索起始指针
table = partial_table(p) # 字串匹配表
while cur <= m-n: # 只去匹配前m-n个
for i in range(n): # 按字串长度进行匹配,如果字串没有匹配上,向后位移
if s[i+cur] != p[i]:
cur += max(i - table[i-1], 1) # 移动位数 = 已匹配的字符数 - 对应的部分匹配值
break
else:
# 匹配上!!!
match_idx.append(cur)
cur+=1
return match_idx
# 部分匹配表
def partial_table(p):
prefix = set()
postfix = set()
ret = [0] # 第一位无须匹配,从第二位开始
for i in range(1, len(p)):
prefix.add(p[:i]) # 根据匹配子串长度,依次更新前缀集合
postfix = {p[j:i+1] for j in range(1, i+1)} # 每次循环子串,更新后缀集合
ret.append(len((prefix & postfix or {''}).pop())) # 每循环一次更新字串同时出现在前缀和后缀的字串,返回其长度
return ret
def main():
s = "ABCDEABC"
p = "ABC"
kmp_match(s, p)
if __name__ == "__main__":
main()