Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

同义词是用什么算法? #468

Closed
kelciej opened this issue Apr 7, 2017 · 4 comments
Closed

同义词是用什么算法? #468

kelciej opened this issue Apr 7, 2017 · 4 comments

Comments

@kelciej
Copy link

kelciej commented Apr 7, 2017

你好,hanks!
我发现你的同义词准确率挺高的,想知道你是用什么算法,如果能够有该算法的论文就更好了,太感谢!

@hankcs
Copy link
Owner

hankcs commented Apr 7, 2017

请参考 #91

@kelciej
Copy link
Author

kelciej commented Apr 10, 2017

你好,可以看出你的算法是基于同义词词林。但是利用同义词词林的算法也有很多,比方说田久乐的《基于同义词词林的词语相似度计算方法》,这个算法我试过,同义词近似度匹配的结果与我的设想出入比较大。之前试过你的同义词匹配,正确率较高,所以特别迫切想了解一下您的具体算法。因为现在是大四毕业设计,希望您能提供相关论文的一些信息(如果无法提供链接,提供一些关键词也行),非常感谢!

@hankcs
Copy link
Owner

hankcs commented Apr 13, 2017

  1. 真的是我自己设计的一个朴素算法,所以没有论文发表。
  2. 硬要说的话,实际上是将64位长整型的整数空间按照同义词词林的树形id平均分为很多个区域,让大的分类对应大的区域,再按二级分类、三级分类……去均分。可以参考com.hankcs.hanlp.corpus.synonym.SynonymHelper#convertString2Id,很简单的一维映射,所以没有解决大类与大类之间的相似性问题。

@kelciej
Copy link
Author

kelciej commented Apr 23, 2017

谢谢你的解答

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants