Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

语料处理增加对数学中符号的转化 #19

Open
WongHunter opened this issue Jun 28, 2020 · 1 comment
Open

语料处理增加对数学中符号的转化 #19

WongHunter opened this issue Jun 28, 2020 · 1 comment

Comments

@WongHunter
Copy link

a³转化为a的三次幂,能够讲右上角阿拉伯数字转中文数字,还有计量单位也可以增加一下,电流,毫安,这些,能增加符号温度℃这些更完美了

电流 | 安(培) | A
平面角1°=60ˊ

@blmoistawinde
Copy link
Owner

感谢你的建议!感觉这可以做成一个挺有用的新特性,并且可以通过类似添加新实体一类的方法来比较方便地融入到这个库里来。

可以的话,我还希望你能够提供一些更详细的描述,这样我可以在设计的时候把这个功能做得更加通用、实用。

  1. 你希望处理的文本数据大概是来源于哪里呢?

看你的描述,感觉很像是教材或者学术文章一类的文本,一般社交网络里应该都很难打出三次方来吧(或者用a^3)。给我提供一些明确的来源的话,我可以去看看大概有哪些符号是需要处理的。

  1. 转化后希望用于什么下游任务里呢?

比如希望统一符号表示,便于使用统一的模式进行信息抽取?比如从30A里,利用(.*)安培的模式抽取出30

或者,甚至是进行单位换算、符号运算?

明确了这些任务的话,我可以看看是不是有一些其他功能也适合加入这个库里。

希望得到回复,谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants