文脈ベクトルにおける頻出語の抽出数について #843
Replies: 3 comments
-
はい,お書きいただいた通りです。布置したり分類したりする語については(1)人間が読み取りやすいよう100から200程度以下になるように,(2)切りの良い区切り(ex. 500, 800)になるよう設定しました。 文脈ベクトルを用いる場合,文脈をあらわす語の方は,100とか200をはるかに超える数を設定できます。こちらは,RAMの容量や,計算結果が出るのをどれくらい待てるか(計算時間)によって上限が決まります。当時は2500とか5000程度にしていたようです。 いずにせよ,あんまり厳密な基準というものはない(決められない)ように思っています。 ※今から卒論とはスタートが早くて良いですね! |
Beta Was this translation helpful? Give feedback.
-
樋口先生 お忙しい中の早速のご返信ありがとうございます。 ※私のゼミでは, 4回生になる4月時点で2万字下限の卒論の草案を仕上げる方針となっています。僕は現在約6万5千字なので字数制限だけで言えば, クリアしていますが, 分析と議論がまだ, という感じです。かなり自分にとってはハードなのですが, 研究者志望(研究分野としては, (計量)社会意識論, 大衆社会論)なので, これ位当然だろうと思います。 |
Beta Was this translation helpful? Give feedback.
-
4月に2万字の草案とは,なかなか周到で良いゼミですね。 情熱を持って研究に取り組めれば,大学院は楽しいところと思います。上手く進むといいですね。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生
こんにちは。
KHCoderでの歌詞分析で、卒論を執筆中の学部生(立命館大)です。
この度、標記のことでお伺いさせて頂きたいことがあり、ご連絡させて頂きました。
先生が上梓なされた『社会調査のための計量テキスト分析』の中のp.53, 68において、論文中で文脈ベクトル算出の手順について述べられており, そのベクトル算出の為の頻出語の抽出条件において, p.53においては「800回以上5864回以下」, p68では「500回以上」という制限を定めていると思うのですが, この下限である800回以上や500回以上はどういう基準で定めているのでしょうか(上限については、サンプル数以上に出現する語は一般的と見なすのを基準とするのはよくわかりました)。布置語が100~200語あたりになるように、分析者が独自で設定しているようなものなのでしょうか。
お忙しいところ恐縮ですが、ご回答のお返事を頂けると幸甚です。
よろしくお願いいたします。
Beta Was this translation helpful? Give feedback.
All reactions