Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

HanLP对于用户自定义词典的官方推荐方法是怎样的? #182

Closed
fengxiaochuang opened this issue Apr 11, 2016 · 4 comments
Closed
Labels

Comments

@fengxiaochuang
Copy link

你好,我在测试的时候,发现通过CustomDictionary.add()方法添加的新词不会自动持久化,没有动态修改二进制缓存文件.
HanLP官方推荐的方法是记录添加成功的自定义词语,然后在下次项目启动之前追加到自定义词典文件吗?

@hankcs
Copy link
Owner

hankcs commented Apr 11, 2016

  1. HanLP的中心思想是基于统计的自然语言处理
  2. 词典分词是落后的规则分词,只做辅助
  3. 这个问题其实想问一个持久化的用户词典方式
  4. CustomDictionary.add 本来就是设计为debug用的(性能不是最好的,参考demo),但大家似乎很喜欢用
  5. 目前的持久化方式就是CustomDictionary.txt,如何管理这个文本文件?项目启动时HanLP会自动加载,你只需删缓存。项目关闭时你需要将你的词语写入这个文件。
  6. 还有更高级更优雅的方式,比如给CustomDictionary.dat加个锁,开一个检测线程,当CustomDictionary.trie中有用户词的时候自动重构dat,并写入词典。不过这是个很小众的功能,对基于统计的系统来讲,天天围绕词典转圈没什么意思。

@fengxiaochuang
Copy link
Author

因为在使用的时候,有些分词结果没有达到心理预期,在没有完美语料的情况下,希望人为来修正结果达到目的.
谢谢博主的用心解答~

@yoopaan
Copy link

yoopaan commented Sep 3, 2018

screen shot 2018-09-03 at 10 37 44 am
图上是我的自定义词典目录的情况,我的词典文件都不是很大,为什么生成的CustomDictionary.txt.bin会有49M?并且生成这个bin文件的时间达三分钟左右,是什么原因造成的? @hankcs @linuxsong @driventokill @thihy

@hankcs
Copy link
Owner

hankcs commented Jan 1, 2020

感谢您对HanLP1.x的支持,我一直为没有时间回复所有issue感到抱歉,希望您提的问题已经解决。或者,您可以从《自然语言处理入门》中找到答案。

时光飞逝,HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本,代号为最后的武士。此后1.x分支将提供稳定性维护,但不是未来开发的焦点。

值此2020新年之际,我很高兴地宣布,HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此,HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型,通过精心设计的框架支撑下游NLP任务,在海量语料库上取得了最前沿的准确率。作为第一个alpha版本,HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且,这些功能并不仅限中文,而是面向全人类语种设计。HanLP2.0提供许多预训练模型,而终端用户仅需两行代码即可部署,深度学习落地不再困难。更多详情,欢迎观看HanLP2.0的介绍视频,或参与论坛讨论

展望未来,HanLP2.0将集成1.x时代继承下来的高效率务实风范,同时冲刺前沿研究,做工业界和学术界的两栖战舰,请诸君继续多多指教,谢谢。

@hankcs hankcs closed this as completed Jan 1, 2020
@hankcs hankcs added ignored and removed question labels Jan 1, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants