特徴語がすべての文章群に出てくる。また、Jaccard係数の計算について #852
Replies: 4 comments
-
Jaccard係数の計算には,出現回数は使いません。単位の数だけをつかって計算します。 こちらのFAQ項目の方がもう少し分かりやすいでしょうか? 条件と語の場合のスライドもこちらにあります。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生 そして再度申し訳ありません。 |
Beta Was this translation helpful? Give feedback.
-
Jaccard係数も,特徴語を取り出すための万能な係数とか,必ず特徴語を見つけられるといったものではありません。あくまで1つの計算方法です。条件次第では,3群すべてに出てくることもあるだろうと思います。 もし私なら,まずは1群ないし2群にしかリストアップされていない特徴語をまず重視して解釈するだろうと思います。それから,お書きになっているように,Jaccard係数の大小の違いをみたり,共起ネットワーク(語―外部変数・見出し)や対応分析の結果とあわせて考えるのかなと思います。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生 |
Beta Was this translation helpful? Give feedback.
-
Jaccard係数について、過去掲示板を拝見しました。
http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1928&mode=allread
[A群の中で出現した回数]/[ある特徴語の全体での出現回数とA群の単位の数(例えばA群の人数、または段落数など)合計数 - A群の中で出現した回数]
αという単語について
全体の文章数 959
αが含まれる文章数 175
αの出現回数 255回
文章群Aの文章数 238
Aのうち、αが含まれる文章数 51
Aのうち、αの出現回数 82回
前述の式に当てはめる、82/(255+51-82)=0.36
しかし、KHCoderで計算したものは、0.48となっており、悩んでいます。
なぜこのようなことをしているかというと、
全体の文章を3つのカテゴリに分けて特徴語を見たとき、
そのどれもにαという単語が「特徴語」として出現したので、
なぜだろうかと計算している次第です。
なお、3つの文章群すべてに特徴語として出ていることへの解釈に関しては、
Jaccard係数の大小の違いを比較しながら見る、
また、文章群A~Cまでの変数を含めた共起ネットワークを作成し、解釈する、
という方法で良いでしょうか。
Beta Was this translation helpful? Give feedback.
All reactions