-
Notifications
You must be signed in to change notification settings - Fork 667
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
腾讯词库里的多音字如果不标注拼音的话很多歧义 #317
Comments
这个问题是很难解决的, 应该也是大多数词库存在的问题. |
确实,今天尝试用pinyin-pro(https://pinyin-pro.cn/guide/start.html)加拼音,发现也是很多多音字的拼音不对。 没发现完美解决方案,只有部分可以正确发音。 估计要靠手动校对才行。 |
这个项目我也注意到了, 初步用下来感觉比 pypinyin 的注音准确度要高一点, 维护活跃度也高一点, 后面我打算用它给词条注音 |
Rime 是按照字表( 跑了脚本看了一下,现在的词库里有未注音的多音字 552957 个(457605 行)。 目前的解决方案是: |
降息也需要注音,现在xiang xi也可以打出降息两字。准确来说是打不详细的时候出现了不降息的词条。 我注意到这个词在base词库里是有注音的,是否应该考虑base里已有注音的词,在腾讯词库里面做一些处理。 |
我写了一个脚本可以缓解部分这种情况:https://github.com/xjkdev/rime-ice/blob/duoyinzi/cn_dicts/Untitled-1.ipynb |
这个脚本主要原理是,假如一个多音字在一个词中只有一种读音(根据base表),且腾讯词库的短语完整包含这个词,就可认为这个短语发这个音。前提是短语中没有其他无法确认的多音字,并且无论怎么分词,这个字在前后组成的词中都只有一种读音。 |
多音字难处理的地方就是, 相同的字词在不同的词条里有不同的发音, 比如: |
这个脚本并非能解决所有的问题,只能解决我说的情形,这个情形是加了很多限制的。 |
但是没字应该是属于比较特殊的情况,可以特殊地把相关的词加入到base里,或者直接排除? |
这个思路好啊,就是「的地得」有一些问题,比如「漫无目的地走 man wu mu di di zou 100」。 |
有几个多音的非常常用的字,可能可以考虑优先标注,比如 “的”,“地”,“没”。 另外可能可以考虑优先标注一下一个以上多音字的词组。刚刚想打 “的面积” de mian ji 打出一个 “地面系”(地、系都是多音字),这种体验很差。 |
和本条相关: 「截长图」应当注音,否则打「截张图」的时候会出现 |
比如 没 可以读成 mo, mo fa zhan 就能打出 没发展。gao kao mo kao hao 高考没考好 etc. 光一个“没”字在腾讯词库里就有三千多个(3344 个)
The text was updated successfully, but these errors were encountered: