文脈ベクトルにおける頻出語の抽出数について #843

Komacky · 2019-04-03T08:30:52Z

Komacky
Apr 3, 2019

樋口先生

こんにちは。
KHCoderでの歌詞分析で、卒論を執筆中の学部生(立命館大)です。

この度、標記のことでお伺いさせて頂きたいことがあり、ご連絡させて頂きました。

先生が上梓なされた『社会調査のための計量テキスト分析』の中のp.53, 68において、論文中で文脈ベクトル算出の手順について述べられており, そのベクトル算出の為の頻出語の抽出条件において, p.53においては「800回以上5864回以下」, p68では「500回以上」という制限を定めていると思うのですが, この下限である800回以上や500回以上はどういう基準で定めているのでしょうか（上限については、サンプル数以上に出現する語は一般的と見なすのを基準とするのはよくわかりました）。布置語が100~200語あたりになるように、分析者が独自で設定しているようなものなのでしょうか。

お忙しいところ恐縮ですが、ご回答のお返事を頂けると幸甚です。
よろしくお願いいたします。

ko-ichi-h · 2019-04-03T13:10:35Z

ko-ichi-h
Apr 3, 2019
Maintainer

はい，お書きいただいた通りです。布置したり分類したりする語については（1）人間が読み取りやすいよう100から200程度以下になるように，（2）切りの良い区切り（ex. 500, 800）になるよう設定しました。

文脈ベクトルを用いる場合，文脈をあらわす語の方は，100とか200をはるかに超える数を設定できます。こちらは，RAMの容量や，計算結果が出るのをどれくらい待てるか（計算時間）によって上限が決まります。当時は2500とか5000程度にしていたようです。

いずにせよ，あんまり厳密な基準というものはない（決められない）ように思っています。

※今から卒論とはスタートが早くて良いですね！

0 replies

Komacky · 2019-04-04T06:15:15Z

Komacky
Apr 4, 2019
Author

樋口先生

お忙しい中の早速のご返信ありがとうございます。
ご説明して頂いたおけげで, 抽出語の制限について理解できました。
このまま引き続き進めていけそうです。

※私のゼミでは, 4回生になる４月時点で2万字下限の卒論の草案を仕上げる方針となっています。僕は現在約6万5千字なので字数制限だけで言えば, クリアしていますが, 分析と議論がまだ, という感じです。かなり自分にとってはハードなのですが, 研究者志望(研究分野としては, (計量)社会意識論, 大衆社会論)なので, これ位当然だろうと思います。
立命館の社会学研究科に進学するかもしれないので, その時はまた先生にご挨拶させて頂こうとも考えています。
余計な私情で, 失礼致しました。

0 replies

ko-ichi-h · 2019-04-05T13:04:16Z

ko-ichi-h
Apr 5, 2019
Maintainer

4月に2万字の草案とは，なかなか周到で良いゼミですね。

情熱を持って研究に取り組めれば，大学院は楽しいところと思います。上手く進むといいですね。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文脈ベクトルにおける頻出語の抽出数について #843

{{title}}

Replies: 3 comments

{{title}}

{{title}}

{{title}}

Select a reply

文脈ベクトルにおける頻出語の抽出数について #843

Komacky Apr 3, 2019

Replies: 3 comments

ko-ichi-h Apr 3, 2019 Maintainer

Komacky Apr 4, 2019 Author

ko-ichi-h Apr 5, 2019 Maintainer

Komacky
Apr 3, 2019

ko-ichi-h
Apr 3, 2019
Maintainer

Komacky
Apr 4, 2019
Author

ko-ichi-h
Apr 5, 2019
Maintainer