jaccard係数が1を超えている場合の解釈について #1213
Replies: 16 comments
-
こんにちは、樋口です。書き込みありがとうございます。 本来はありえない現象なのですが、それがどうして発生しているのかと頭を抱えているところです。その現象は、チュートリアル用に添付されている漱石「こころ」データでも再現できますでしょうか? もし再現できない場合は、その現象を再現できるデータをここに張り付けるか、樋口宛にお送りいただくことは可能でしょうか? ご検討いただけましたら幸いです。 それに加えて、以下のこと(不具合報告用のテンプレートの一部)についてお知らせいただけますと幸いです。
|
Beta Was this translation helpful? Give feedback.
-
あとは、前処理をもう一度実行して、結果が変わるかどうかご覧いただけますでしょうか。 もしウィルス対策やセキュリティ関連のソフトウェアをお使いでしたら、それらを一時的に無効にしてから前処理を実行していただくと、いかがでしょう。 |
Beta Was this translation helpful? Give feedback.
-
早速のご返答ありがとうございます。
|
Beta Was this translation helpful? Give feedback.
-
他のPCで分析を行いましたが、同様に係数が1を超えている状態です。 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書きこみありがとうございます。 念のための確認なのですが、KH Coderの最新版でお試しいただいても同じ結果でしょうか? また、この問題が生じるのは、特定のコード「疼痛」で検索した場合でしょうか? それとも、直接入力欄に普通の単語を入力した場合でも、発生するのでしょうか? 特定のコードで問題が発生する場合は、そのコードの内容(条件部分)をおしらせいただけますか? あとは、全体でのH5の数や、挿入物と鎮痛薬のh5での文書数を確認して、お知らせいただくことはできますでしょうか? |
Beta Was this translation helpful? Give feedback.
-
単語を直接入力した場合や、外部変数と見出し→特徴語→関連語検索という手順で外部変数を条件として使用した場合も同様です。 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 あ、外部プラグイン(表記ゆれ吸収)をご利用なのですね。外部プラグインは表記ゆれ吸収のみでしょうか? 結果がおかしい語「挿入物」「鎮痛薬」は、表記ゆれを吸収した語でしょうか? それから、KH Coderの最新版(3.Beta.01h)でお試しいただいても同じ結果になりますでしょうか? |
Beta Was this translation helpful? Give feedback.
-
最新版でも同じ結果になる場合、さらに以下の点についてお教えいただけますでしょうか。 メニューの「プロジェクト」「エクスポート」「抽出語リスト(Excel向け)」をクリックし、開いた画面で「文書数(DF)」「H5」を選択して「OK」をクリックしてください。開いたExcelファイル内を検索して「挿入物」「鎮痛薬」の文書数(h5)の数値をお教えいただけますでしょうか。 次に、メニューの「ツール」「文書」「文書検索」画面にて、「検索単位」として「H5」を選択してから、「挿入物」「鎮痛薬」を検索し、画面下部の「ヒット数」の数値をそれぞれお教えいただけますでしょうか。 ※データを拝見させていただければ、こちらですべてお調べできるのですが、それが難しい場合はこうした面倒な手順となってしまって恐れ入ります。 |
Beta Was this translation helpful? Give feedback.
-
もう一点、「プロジェクト」「設定」画面で、「基本形が同じ語は、品詞名が異なっていても同じ語とみなす」オプションにチェックを入れていらっしゃいますでしょうか? |
Beta Was this translation helpful? Give feedback.
-
ご連絡ありがとうございます。やはり個人情報が含まれているものであるため、電子上で送付するというのは困難です。申し訳ございません。 外部プラグインは、表記ゆれと文錦のプラグインであるクレンジングとレポーティングを使用しております。「鎮痛薬」「挿入物」ともに表記ゆれ吸収を行った語で「タグ」と表示されております。 メニューの「プロジェクト」「エクスポート」「抽出語リスト(Excel向け)」をクリックし、開いた画面で「文書数(DF)」「H5」を選択して「OK」をクリックしてください。開いたExcelファイル内を検索して「挿入物」「鎮痛薬」の文書数(h5)の数値をお教えいただけますでしょうか。 メニューの「ツール」「文書」「文書検索」画面にて、「検索単位」として「H5」を選択してから、「挿入物」「鎮痛薬」を検索し、画面下部の「ヒット数」の数値をそれぞれお教えいただけますでしょうか。 基本形が同じ語は、品詞名が異なっていても同じ語とみなす ご多忙とは存じますが、よろしくお願い申し上げます。 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 すみません、表記ゆれのプラグインというのは、文錦シリーズでしょうか? それとも #101 で公開されているものでしょうか? |
Beta Was this translation helpful? Give feedback.
-
#101のものです。 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 おそらくですが、#101 で過去に公開していた古いバージョンのプラグインをお使いなのではないかと思います。プラグイン「z1_edit_words3.pm」をテキストエディタで開いて、「# df」を検索してみてください。 #101 の下の方でバグ修正について書いていますが、修正済みの最新版のプラグインには「# df」から始まる以下のような部分があります。おそらく、お使いのプラグインはバージョンが古く、この部分が存在しないのではないでしょうか?
この部分が存在しなかった場合は、最新版のプラグインをダウンロードして、表記ゆれを吸収するための定義部分を現在のバージョンからコピーした上で、最新版で上書きしてください。それから前処理をやり直し、表記ゆれを吸収して、集計を行うといかがでしょう? |
Beta Was this translation helpful? Give feedback.
-
ご連絡ありがとうございます。 |
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 前処理をもう一度実行して、プラグインメニューから「表記ゆれの吸収」を実行していただくと、いかがでしょう? ※これを行っていただかないと、新しいプラグインの効果が出ないのです。 |
Beta Was this translation helpful? Give feedback.
-
ご連絡ありがとうございます。 |
Beta Was this translation helpful? Give feedback.
-
質問させていただきます。
関連語検索にて、ある語(全体の頻出語のうち3番目に多く登場している語)を検索条件とすると
下に表示される語のうち、いくつかの語が
全体のセルの数が、共起の数よりも少なく、jaccard係数が1を超えているという現象が起こっており、どのような解釈をしてよいものか困っております。
集計単位はH5であり、1セルに同じ語が複数登場しているためなのかと考えましたが、それだと全体の数も多くなると考えました。
どのような現象が起こっており、どう解釈すべきなのかご教授いただければ幸いです。
よろしくお願い申し上げます。
Beta Was this translation helpful? Give feedback.
All reactions