Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

中文引号等特殊符号处理 #10

Closed
Helenailse1 opened this issue Feb 22, 2023 · 20 comments
Closed

中文引号等特殊符号处理 #10

Helenailse1 opened this issue Feb 22, 2023 · 20 comments
Assignees
Labels
Done The issue is fixed enhancement New feature or request

Comments

@Helenailse1
Copy link

您好,请问bert vocab没有的符号,比如双引号单引号、英文大写有做处理吗?直接用joint_evaluate得到的数据将原文中的中文符号变成英文符号了,英文大写变成小写了
比如,
去年5月,阿里巴巴宣布将旗下的“一达通”平台,向我国外贸出口企业发放“出口补贴”,进一步推进整个外贸生态系统的可持续发展。->去年5月,阿里巴巴宣布将用旗下的"一达通"平台,向我国外贸出口企业发放"出口补贴",进一步推进整个外贸生态系统的可持续发展。

@xlxwalex xlxwalex self-assigned this Feb 22, 2023
@xlxwalex xlxwalex added the question Further information is requested label Feb 22, 2023
@xlxwalex
Copy link
Owner

您好,

由于我们在计算指标时会筛掉标点,因此标点不会引起指标变化,所以我们在符号/英文上偷了一下懒,没有做特别处理。

您给出的例子是因为我们发现基本上会引起tokenizer 出 [UNK]的都是引号,所以在joint_evaluate.py的123, 124以及125行可以看到我们直接简化的对结果进了英文引号的替换[replace('[UNK]', '"')]。

另外您说的这两个问题确实应该被考虑到,目前想到的解决方法是:

  1. 在PLM中补入对应符号并继续Pre-train之后再接入STG
  2. 对于每个instance中引起[UNK]以及英文符号等特殊情况额外维护一个Index->符号的字典,在decode的时候直接从字典中拿出来放回去

如果您有其他问题,欢迎回复!

@Helenailse1
Copy link
Author

谢谢解答。解决方法您考虑实现吗?

@xlxwalex
Copy link
Owner

我可以之后实现一下,因为最近比较忙所以这个可能需要一段时间,如果实现了会回复该条

@xlxwalex xlxwalex added the enhancement New feature or request label Feb 22, 2023
@Helenailse1
Copy link
Author

感谢回复。期待您的实现。

@xlxwalex xlxwalex reopened this Mar 3, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 3, 2023

您好,

我在最近的提交里已经增加了特殊符号处理的特性,方法是加入了符号的映射表来对这些符号进行处理。使用方式为将run_stg_joint.sh 脚本的头部变量的SPECIAL_MAPPING设置为true即可,实现后的部分效果如下所示:

(8 2LY@1BO{8 VOPRO2GF

如果有问题可以在该条下回复!

@xlxwalex xlxwalex pinned this issue Mar 3, 2023
@xlxwalex xlxwalex added Done The issue is fixed and removed question Further information is requested labels Mar 3, 2023
@Helenailse1
Copy link
Author

收到 谢谢您~

@xlxwalex xlxwalex closed this as completed Mar 6, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 6, 2023

客气啦

@Helenailse1
Copy link
Author

您好 有一个小bug 特殊符号在首位没有被识别
image

@xlxwalex
Copy link
Owner

xlxwalex commented Mar 6, 2023

感谢指出,我看一下修复一下!

@xlxwalex xlxwalex reopened this Mar 6, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 6, 2023

@Helenailse1 我看了一下我这边的输出,似乎这两句话没有问题,您有更改其它地方的代码吗?
HLBEOSEW 0LYS7460ZOB1B2

xlxwalex added a commit that referenced this issue Mar 6, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 6, 2023

我重新Clone了一份代码,发现__init__里之前没覆盖有个引入错误,但是句首的bug暂时我这边没法复现,您可以Clone一份新的试一下

@Helenailse1
Copy link
Author

您好 clone新代码 修改了run_stg_joint中PLM_PATH、SPECIAL_MAPPING,运行结果出现句首bug

@xlxwalex
Copy link
Owner

xlxwalex commented Mar 7, 2023

那我在尝试复现一下

xlxwalex added a commit that referenced this issue Mar 7, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 7, 2023

确实是有一个边界写错了,我之前看的是Switch的输出所以没发现,现在应该已经修复了,可以再试一下!

@Helenailse1
Copy link
Author

收到 问题解决 谢谢您。
另外,部分case 输出结果还存在符号未被转换或过度转换的问题,比如:
1.观众的思想水平、审美趣味与艺术鉴赏能力差异,很大程度上影响着对一部电视剧是否“注水”的基本判断。
2.今年紫禁城首次于夜间向预约公众免费开放,它举办的“紫禁城上元之夜”文化活动异常火爆,其中最引人关注的是在乾清宫前丹陛上竖起了“天灯”和“万寿灯”。
3.一些中国游客的“不文明行为”,其实是国内某些“思想家”臆想的“洋规矩”。对所谓“民族劣根性”的“批判”,常是国内热火朝天,国外莫名其妙。
4.现身后的普京说的“如果没有八卦,我们会觉得很无聊的” 隐喻了那些过度“关心”他的舆论“无聊”和“八卦”,凸显普京一 贯的行事作风。

xlxwalex added a commit that referenced this issue Mar 7, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 7, 2023

对于第一、二、三句,我检查了一下是Delete操作的映射处理出了一点错之前没发现,现在已经修复。第四句是由于句中包含了空格导致没法对齐,您先预洗掉空格就可以了,如果还有问题欢迎回复!感谢提供错例

@Helenailse1
Copy link
Author

您好,仍存在一些错例。
今年紫禁城首次于夜间向预约公众免费开放,它举办的“紫禁城上元之夜”文化活动异常火爆,其中最引人关注的是在乾清宫前丹陛上竖起了“天灯”和“万寿灯”。
一些中国游客的“不文明行为”,其实是国内某些“思想家”臆想的“洋规矩”。对所谓“民族劣根性”的“批判”,常是国内热火朝天,国外莫名其妙。
颐和园“大黄鸭” 风靡和童心未泯有关。“大黄鸭”与《致青春》同期走红看似巧合却都验证着的创意本身最朴素的真谛:创意是人性艺术。
河北姑娘张梓琳在第57届“世界小姐”大赛中斩获冠军,成为中国第一位世界小姐冠军,也是本次大赛唯一进入“十佳”殊荣的亚洲选手。
11月20日晚8点,中国嘉德2010秋季拍卖会在北京举行“秋光万华——清代宫廷艺术集萃”专场,吸引了众多藏家,多件作品以高出估价数倍的价格成交。
“好读书而不求甚解”,是嘲讽那些不知读书为何用的“书虫”呢,还是以戏谑的口吻赞赏“读书当观其大略”的要诀?
近年来,我国在国际量子信息研究领域取得了众多令世界瞩目的成就,日前更是成功发射了“墨子号”成为全球首颗量子科学实验卫星。
据了解,此次分享通信“集”品牌推出“集节号”产品,主要面向集客市场,为集团客户提供功能强大、价格实惠的融合通信和移动办公服务平台。
金庸创作了“飞雪连天射白鹿,笑书神侠倚碧鸳”的系列故事,永远是成人世界里美丽的童话。
盐城市文明委表示,要把“倡导文明婚礼、抵制陈规陋习”作为一项重要工作抓紧抓实,并与其他各类文明创建活动紧密相连。

xlxwalex added a commit that referenced this issue Mar 9, 2023
@xlxwalex
Copy link
Owner

xlxwalex commented Mar 9, 2023

您好,抱歉上一版是我的疏忽,我本地默认使用的Checkpoints和1025版本的不一致,所以这些样本我昨天没排查出来。我已经重新进行了检查,目前的版本应该基本上没有映射问题了。比较特殊的部分没能对齐的多半是因为句中包含了空格,这部分您这边输入时清除一下就行。再次感谢提供错例!

@Helenailse1
Copy link
Author

收到 谢谢

@xlxwalex
Copy link
Owner

客气啦:)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Done The issue is fixed enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants