高性能文本匹配器

18次阅读

共计 313 个字符,预计需要花费 1 分钟才能阅读完成。

写了一个不在乎内存,一切以快为准的匹配器,还是新手,第一次发帖,多多批评。

https://github.com/Lips7/Matcher

  • 支持 rust 和 python,也写了 c 和 java 调用的 demo。
  • 支持简单匹配

    • 支持组合词匹配,如‘无, 法, 无, 天’,能匹配到‘无法无天’,但不能匹配‘无法天’,词出现的次数也是重要的,以‘,’ 做分隔符。
    • 支持文本转换

      • 繁简匹配
      • 特殊字符删除与归一匹配
      • 拼音匹配
      • 拼音字符匹配
  • 支持藏头诗,如 [‘你, 好, 棒’],能匹配到‘你真的,好帅,棒棒棒’。
  • 支持邻近字,如 [‘你,ni,n,NI’, ‘hao, 号,👌, 好 ’],能匹配到 ’ 你好 ’ 和‘ni👌’。
  • 支持编辑距离相似度匹配。
  • 支持豁免词,豁免词表规则与简单匹配一致。
正文完
 0