一个简单的搜狗词库处理代码,当然基本都是我抄来的,原有大佬的代码仓库基本都不维护了,正好最近喜欢上了基于小狼毫输入法定制的「雾凇输入法」,迁移搜狗词库的时候,看到有人做过这样的代码,就直接拿来了。
①
📄 main/scel_handler.py
:搜狗细胞词库scel
文件解析及转换成RIME
风格的.dict.yaml
文件代码.②
📄 main/scel_spider.py
: 搜狗词库官方网站词库爬虫代码.
添加搜狗细胞词库爬虫代码,已测试除【城市信息】的全部词库类别;
修复搜狗细胞词库解析时,如果遇到
scel
文件含有「黑名单」即:Unicode
编码含有「DELTAB」时解析失败的问题;P.S. 目前仅仅是通过解析词汇表时,「黑名单」部分开始解析的字符为空字符串判断,至于逻辑上怎么判断,暂时还没找到思路.
🙏 感谢以下文章作者提供的思路和代码