kansiho's memo

ruby, python, javascript. Rails, wordpress, OpenCV, heroku...

自然言語処理

文章類似度判定アルゴリズムとrubyでの実装例(1)n-gram, Jaccard Similarity

n-gram n-gramは、フランス語や日本語や大阪弁といった、人が自然に使う言語「自然言語」で記述された文章の特徴を定量的に分析するために開発された手法。「N文字インデックス法」ともいう。 ある文章の中に、ある文字の並びが何回出現したか、をカウントす…