Word similarity computation based on Tongyici Cilin
这是一个基于哈工大同义词词林扩展版的单词相似度计算方法的python实现,参考了三篇paper,实现了三种相似度的计算方法。
三篇paper分别为:
- 2010 田久乐等,吉林大学学报(信息科学版),基于同义词词林的词语相似度计算方法
- 2013 吕立辉等,现代计算机(专业版),基于词林的词语相似度的度量
- 2016 朱新华等,中文信息学报,基于知网与词林的词语语义相似度计算
- python3
- 直接clone到本地即可使用
示例如下
cs = CilinSimilarity()
w1 = '抄袭'
w2 = '克隆'
code1 = cs.get_code(w1)
print(w1, '的编码有:', code1)
code2 = cs.get_code(w2)
print(w2, '的编码有:', code2)
sim = cs.similarity(w1, w2)
print(w1, w2, '最终的相似度为', sim)
输出结果如下
抄袭 的编码有: ['Hb08B04=', 'Hn10C01=']
克隆 的编码有: ['Hd04A03=']
common_str: H
k 2
n 14
Hb08B04= Hd04A03= 的相似度为: 0.585642777645155
common_str: H
k 10
n 14
Hn10C01= Hd04A03= 的相似度为: 0.22524722217121346
抄袭 克隆 最终的相似度为 0.585642777645155
[2013]和[2016]两篇的计算方法,分别调用cs.sim2013(w1, w2)
和cs.sim2016(w1, w2)
即可。
如有错误,请指正,[email protected]