-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
中文引号等特殊符号处理 #10
Comments
您好, 由于我们在计算指标时会筛掉标点,因此标点不会引起指标变化,所以我们在符号/英文上偷了一下懒,没有做特别处理。 您给出的例子是因为我们发现基本上会引起tokenizer 出 [UNK]的都是引号,所以在joint_evaluate.py的123, 124以及125行可以看到我们直接简化的对结果进了英文引号的替换[replace('[UNK]', '"')]。 另外您说的这两个问题确实应该被考虑到,目前想到的解决方法是:
如果您有其他问题,欢迎回复! |
谢谢解答。解决方法您考虑实现吗? |
我可以之后实现一下,因为最近比较忙所以这个可能需要一段时间,如果实现了会回复该条 |
感谢回复。期待您的实现。 |
您好, 我在最近的提交里已经增加了特殊符号处理的特性,方法是加入了符号的映射表来对这些符号进行处理。使用方式为将run_stg_joint.sh 脚本的头部变量的 如果有问题可以在该条下回复! |
收到 谢谢您~ |
客气啦 |
感谢指出,我看一下修复一下! |
@Helenailse1 我看了一下我这边的输出,似乎这两句话没有问题,您有更改其它地方的代码吗? |
我重新Clone了一份代码,发现__init__里之前没覆盖有个引入错误,但是句首的bug暂时我这边没法复现,您可以Clone一份新的试一下 |
您好 clone新代码 修改了run_stg_joint中PLM_PATH、SPECIAL_MAPPING,运行结果出现句首bug |
那我在尝试复现一下 |
确实是有一个边界写错了,我之前看的是Switch的输出所以没发现,现在应该已经修复了,可以再试一下! |
收到 问题解决 谢谢您。 |
对于第一、二、三句,我检查了一下是Delete操作的映射处理出了一点错之前没发现,现在已经修复。第四句是由于句中包含了空格导致没法对齐,您先预洗掉空格就可以了,如果还有问题欢迎回复!感谢提供错例 |
您好,仍存在一些错例。 |
您好,抱歉上一版是我的疏忽,我本地默认使用的Checkpoints和1025版本的不一致,所以这些样本我昨天没排查出来。我已经重新进行了检查,目前的版本应该基本上没有映射问题了。比较特殊的部分没能对齐的多半是因为句中包含了空格,这部分您这边输入时清除一下就行。再次感谢提供错例! |
收到 谢谢 |
客气啦:) |
您好,请问bert vocab没有的符号,比如双引号单引号、英文大写有做处理吗?直接用joint_evaluate得到的数据将原文中的中文符号变成英文符号了,英文大写变成小写了
比如,
去年5月,阿里巴巴宣布将旗下的“一达通”平台,向我国外贸出口企业发放“出口补贴”,进一步推进整个外贸生态系统的可持续发展。->去年5月,阿里巴巴宣布将用旗下的"一达通"平台,向我国外贸出口企业发放"出口补贴",进一步推进整个外贸生态系统的可持续发展。
The text was updated successfully, but these errors were encountered: