中国語正体字(繁体字)テキストの分析について #1181
-
お使いのKH Coderのバージョン3.Beta.07c ご質問の内容をお書きください貴ホームぺージでは以下のとおり中国語については簡体字のみと記載されておりますが、私は中国語正体字(繁体字)のテキストを分析したところ、以下のとおり文字化け等が無く分析することができました。この分析結果を説明を加えた上で論文に使用したいのですが問題が無いでしょうか?
|
Beta Was this translation helpful? Give feedback.
Replies: 9 comments
-
(1)データを簡体字に変換してから分析してみると、結果はどう変化しますか? (2)KH Coder 3 Beta版のサポート(積極的な改修)は終了していますので、論文に掲載されるような重要な分析については、KH Coder 3正式版のご利用をお勧めします。 |
Beta Was this translation helpful? Give feedback.
-
確かに繁体字でも結果は出るのですが、簡体字の方がいくらか正確なように見えますでしょうか? KH Coderでは文を語に分けるのにStanford Segmenterを、品詞を認識するのにStanford POS Taggerを使っています。繁体字でもいけるのかどうか、辞書の収録数に違いがあるのかなど、詳細はこれらのソフトウェアのドキュメントをご覧いただけますか? 私の方でも今少し調べたのですが、すぐには情報にたどり着けませんでした。分かったら、是非ここでお教えください。 ここを見ると、少なくとも以前は簡体字(simplified)のみだったようです。 |
Beta Was this translation helpful? Give feedback.
-
早速のご連絡ありがとうございます。
(1)については比較したデータが現在ありませんので、後ほどサンプルを比較した結果をご報告させていただきます。
(2)については御教示のとおり正式版を使用させていただきます。
2024年1月15日(月) 14:10 ko-ichi-h ***@***.***>:
… (1)データを簡体字に変換してから分析してみると、結果はどう変化しますか?
(2)KH Coder 3 Beta版のサポート(積極的な改修)は終了していますので、論文に掲載されるような重要な分析については、KH Coder
3正式版のご利用をお勧めします。
—
Reply to this email directly, view it on GitHub
<#1181 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/BFLBEUPZZCYFPYYHELPLDVLYOS25LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRYHE2TQ>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
御教示いただいたソフトを私の方でも調べてみたいと思います。ありがとうございました。
2024年1月15日(月) 15:11 ko-ichi-h ***@***.***>:
… 確かに繁体字でも結果は出るのですが、「東京」が固有名詞になるところを見ると、簡体字の方が辞書に入っている語が多いのかな?という感じでしょうか。
2024-01-15-15_03_14-.png (view on web)
<https://github.com/ko-ichi-h/khcoder/assets/12220822/22434f77-8309-4716-b33b-60b7061f78e1>
KH Coderでは文を語に分けるのにStanford Segmenter
<https://nlp.stanford.edu/software/segmenter.shtml>を、品詞を認識するのにStanford
POS Tagger <https://nlp.stanford.edu/software/tagger.shtml>を使っています。繁体字でもいけるのかどうか、辞書の収録数に違いがあるのかなど、詳細はこれらのソフトウェアのドキュメントをご覧いただけますか?
私の方でも今少し調べたのですが、すぐには情報にたどり着けませんでした。
—
Reply to this email directly, view it on GitHub
<#1181 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/BFLBEUP6N3N5JLELKD7JXRDYOTCB7AVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRZGIZTO>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
(1)サンプルを分析してみました。繁体字テキストと簡体字テキストで異なり語数、
延べ語数がかなり違うという結果が出ました(150/119対162/113)。
ちなみにテキストは梁啓超の『新民説』第一節です。
参考に頻出150単語も以下のとおり抽出しましたが、かなり違いがあることが分かりました。
ちなみに左が繁体字で右が簡体字です。優劣は俄かには付け難いところではあります。
[image: image.png]
2024年1月15日(月) 14:10 ko-ichi-h ***@***.***>:
… (1)データを簡体字に変換してから分析してみると、結果はどう変化しますか?
(2)KH Coder 3 Beta版のサポート(積極的な改修)は終了していますので、論文に掲載されるような重要な分析については、KH Coder
3正式版のご利用をお勧めします。
—
Reply to this email directly, view it on GitHub
<#1181 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/BFLBEUPZZCYFPYYHELPLDVLYOS25LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRYHE2TQ>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
うーん、何かしら違う結果になるということですね。 なおGithubの仕様で、メールによる返信ではファイルが添付されないので、結果を見れていませんし、また見たとしても私の中国語レベルは低いので分からないかもしれません。 個人的な経験から、たとえば本来は「名詞」なのに間違って「動詞」に分類しているというように、品詞の判定が間違っていても、それほど分析には大きな影響がないことが多いように思います。一方で、上の「高齢誕」「下」のように、語の取り出しそのものが上手くいかないと、分析に影響がでるように思います。 語の取り出しに注目すると、正体字(繁体字)と簡体字とで、どちらの方が良さそうといったことはありますでしょうか。 |
Beta Was this translation helpful? Give feedback.
-
Stanford Word Segmenterまず文から単語を取り出しているStanford Word Segmenterについては、Chinese Treebank 7 (CTB7)のデータから学習しているという記載がありました(配布ファイル内のREADME-Chinese.txt)。
以前のCTBには簡体字(simplified)のデータしか含まれていなかったようです。 しかし、Chinese Treebank 4からは、「Sinorama magazine, Taiwan」のデータが追加されています。「Taiwan」ですから、これは繁体字のデータである可能性があります。 ですから、CTB7の全データから学習していれば、繁体字のデータも学習に使われている可能性があります。 Stanford POS Tagger次に、品詞判定を行っているStanford POS Taggerについては、次の記述がありました(配布ファイルのmodels/REAME-models.txt)。
Hong Kongということは、繁体字のデータも学習に用いているということかもしれません。 調べてみて分かったのは、今のところここまでです。 うーん、確実を期すには、Stanford NLP Groupに問い合わせるしかないでしょうか。 あるいは、繁体字データが文字化けしないだけで、未知の文字扱いされているのではなく、きちんと分析されていることが分かるような解析結果になっていれば、解析結果を見て判断するというのも一手でしょうか。 |
Beta Was this translation helpful? Give feedback.
-
その後、java-nlp-user メーリングリストに2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。 2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字(traditional Chinese)をサポートしていない旨、投稿されていました。 その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか?と返信されていました。 Stanford SegmenterのRelease Historyを見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。 したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。 |
Beta Was this translation helpful? Give feedback.
-
色々と調べていただきありがとうございました。御教示のとおり簡体字に変換した上でβ版でなく正式版で分析をしてみたいと思います。また不明な点がありましたら連絡させていただきます。御教示本当にありがとうございました。
2024年1月16日(火) 17:55 ko-ichi-h ***@***.***>:
… その後、java-nlp-user メーリングリスト
<https://mailman.stanford.edu/mailman/listinfo/java-nlp-user>
に2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。
2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字(traditional
Chinese)をサポートしていない旨、投稿されていました。
その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか?と返信されていました。
Stanford SegmenterのRelease History
<https://nlp.stanford.edu/software/segmenter.shtml#History>
を見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。
したがって、残念ながら、少なくともStanford
Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。
—
Reply to this email directly, view it on GitHub
<#1181 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/BFLBEUL4WJYKZMGB7USEZJDYOY57LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCNBRGQ4DO>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
その後、java-nlp-user メーリングリストに2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。
2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字(traditional Chinese)をサポートしていない旨、投稿されていました。
その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか?と返信されていました。
Stanford SegmenterのRelease Historyを見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。
したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。