Computing Word Similarity on Large-Scale Corpus

Tao Xu,Weiguang Qu,Xuri Tang,Dexin Ding,Bin Li,Hui Li

Computing Word Similarity on Large-Scale Corpus

2009

Tao Xu
Weiguang Qu
Xuri Tang
Dexin Ding
Bin Li
Hui Li

This paper proposes a novel approach for word similarity computation based on word sense vectors. The word sense vector is built using HIT-IR Tongyici Cilin (Extended) for concept generalization and is further modified by the use of relative and absolute frequency filters. Experiments show that the approach not only overcomes the problem of similarity computation of unseen words but also yields a result closer to human judgment when compared to word similarity computation approaches based on dictionaries.

Keywords:

Computation
Machine learning
Word sense
SemEval
Sparse matrix
Computational linguistics
Vector space
Artificial intelligence
Computer science
Natural language processing
similarity computation
human judgment
Speech recognition
absolute frequency

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations