[Show and tell] 白霜拼音:使用745396750字的高质量语料,进行分词,统计频率,归一化 #1616
gaboolic
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
白霜拼音项目地址:https://github.com/gaboolic/rime-frost
支持全拼和双拼(通过拼写转换实现),双拼更建议用基于白霜拼音制作的墨奇音形(双拼辅),五笔建议用墨奇五笔整句。
白霜拼音的原始配置和词库由雾凇拼音的 af2480b commit 修改而来。
雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。
白霜拼音在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。
然后使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。
使用方法同雾凇拼音。
无智能模型时的输入效果 见:https://github.com/gaboolic/rime-frost
各个国家有各个国家的国歌,充满希望的跋涉比到达目的地更能给人乐趣,图书馆的图书多种多样给人们带来丰富多彩的生活,
等等都可以直接打出 不需要智能模型。
后续todo:
拆分细胞词库,加上长尾词,重新分词
用相同的语料训练一个智能语言模型 进一步提升整句
Beta Was this translation helpful? Give feedback.
All reactions