CilinSimilarity

Word similarity computation based on Tongyici Cilin

这是一个基于哈工大同义词词林扩展版的单词相似度计算方法的python实现，参考了三篇paper，实现了三种相似度的计算方法。

三篇paper分别为：

2010 田久乐等，吉林大学学报（信息科学版），基于同义词词林的词语相似度计算方法
2013 吕立辉等，现代计算机（专业版），基于词林的词语相似度的度量
2016 朱新华等，中文信息学报，基于知网与词林的词语语义相似度计算

Usage

python3
直接clone到本地即可使用

示例如下

cs = CilinSimilarity()
w1 = '抄袭'
w2 = '克隆'
code1 = cs.get_code(w1)
print(w1, '的编码有：', code1)
code2 = cs.get_code(w2)
print(w2, '的编码有：', code2)
sim = cs.similarity(w1, w2)
print(w1, w2, '最终的相似度为', sim)

输出结果如下

抄袭 的编码有： ['Hb08B04=', 'Hn10C01=']
克隆 的编码有： ['Hd04A03=']
common_str:  H
k 2
n 14
Hb08B04= Hd04A03= 的相似度为： 0.585642777645155
common_str:  H
k 10
n 14
Hn10C01= Hd04A03= 的相似度为： 0.22524722217121346
抄袭 克隆 最终的相似度为 0.585642777645155

[2013]和[2016]两篇的计算方法，分别调用cs.sim2013(w1, w2)和cs.sim2016(w1, w2)即可。

如有错误，请指正，[email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
source		source
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CilinSimilarity

Usage

About

Releases

Packages

Languages

License

ashengtx/CilinSimilarity

Folders and files

Latest commit

History

Repository files navigation

CilinSimilarity

Usage

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages