eAcs

基于ac算法实现的快速高效的敏感词匹配,检查,过滤功能, 另外特殊字符不参与敏感词匹配,检查和替换, 替换是会按照原位置保留

Build

$ rebar3 escriptize   ->   genAcs
$ rebar3 compile

Notice

编译acsTree.erl 时不要加debug_info 选项 减少编译后的大小和加载后内存占用

Uses

敏感词预处理 去除特殊字符和去掉重复的敏感词 （SWordFile 和 OutputDirFile) 可以同名
     脚本生成：./genAcs -f/-F SWordFile OutputDirFile
    函数调用： genAcs:main(["-f"/"-F", SWordFile, OutputDirFile])
创建 acsTree.erl
    脚本生成：./genAcs SWordFile OutputDir
    函数调用： genAcs:main([SWordFile, OutputDir])
匹配 检查 过滤 敏感词
    eAcs:matchSw/1               %% 返回匹配的敏感词列表
    eAcs:isHasSw/1               %% 检查是否包含敏感词
    eAcs:replaceSw/1             %% 替换敏感词
    eAcs:isHasRpSw/1             %% 检测并替换敏感词

性能

实际测试中
    基于在一个2万敏感词构造的ac状态树中测试 匹配耗时为 50-100ns 一个字 算下来1秒可以匹配上千万的文本
测试示例(测试前先注释掉测试代码打印的参数和eAcs matchSw匹配输出的列表构造): 
    下载了一个比较火的动漫小说 吞噬星空.txt  
    查看该小说有多少字
    {ok, DataStr} = file:read_file("吞噬星空.txt"),
    eAcs:strSize(DataStr, 0).           -> 5729268
    测试匹配
    acTest:test4(100, "./src/test/吞噬星空.txt").
    =====================
    execute Fun :matchSw
    execute Mod :eAcs
    execute LoopTime:100
    MaxTime:  450278766(ns)   0.450279(s)
    MinTime:  428782619(ns)   0.428783(s)
    SumTime: 4345761036(ns)   43.45761(s)
    AvgTime: 434576103.(ns)   0.434576(s)
    Grar   :         43(cn)       0.43(%)
    Less   :         57(cn)       0.57(%)
    =====================
    ok
    
    It's really fast!!!

算法说明

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
src		src
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
rebar.config		rebar.config

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

eAcs

Build

Notice

Uses

性能

算法说明

About

Releases 2

Packages

Languages

License

ErlGameWorld/eAcs

Folders and files

Latest commit

History

Repository files navigation

eAcs

Build

Notice

Uses

性能

算法说明

About

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages