🐍 搜狗细胞词库爬虫&转`RIME`风格词库

一个简单的搜狗词库处理代码，当然基本都是我抄来的，原有大佬的代码仓库基本都不维护了，正好最近喜欢上了基于小狼毫输入法定制的「雾凇输入法」，迁移搜狗词库的时候，看到有人做过这样的代码，就直接拿来了。

📄 文件说明

① 📄 main/scel_handler.py ：搜狗细胞词库 scel 文件解析及转换成 RIME 风格的 .dict.yaml 文件代码.

② 📄 main/scel_spider.py ：搜狗词库官方网站词库爬虫代码.

📅 更新说明

📅 ﹝ 2024年05月18日 ﹞

添加搜狗细胞词库爬虫代码，已测试除【城市信息】的全部词库类别;

修复搜狗细胞词库解析时，如果遇到 scel 文件含有「黑名单」即：Unicode 编码含有「DELTAB」时解析失败的问题;

P.S. 目前仅仅是通过解析词汇表时，「黑名单」部分开始解析的字符为空字符串判断，至于逻辑上怎么判断，暂时还没找到思路.

🔗 参考

🙏 感谢以下文章作者提供的思路和代码

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
main		main
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🐍 搜狗细胞词库爬虫&转`RIME`风格词库

📄 文件说明

📅 更新说明

📅 ﹝ 2024年05月18日 ﹞

🔗 参考

About

Releases

Packages

Languages

License

Parantric/scel-handler

Folders and files

Latest commit

History

Repository files navigation

🐍 搜狗细胞词库爬虫&转RIME风格词库

📄 文件说明

📅 更新说明

📅 ﹝ 2024年05月18日 ﹞

🔗 参考

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

🐍 搜狗细胞词库爬虫&转`RIME`风格词库

Packages