中国語正体字（繁体字）テキストの分析について #1181

kusajun · 2024-01-15T04:38:24Z

kusajun
Jan 15, 2024

お使いのKH Coderのバージョン

3.Beta.07c

ご質問の内容をお書きください

　貴ホームぺージでは以下のとおり中国語については簡体字のみと記載されておりますが、私は中国語正体字（繁体字）のテキストを分析したところ、以下のとおり文字化け等が無く分析することができました。この分析結果を説明を加えた上で論文に使用したいのですが問題が無いでしょうか？

KH Coderは、定量的コンテンツ分析またはテキストマイニング用のコンピューターソフトウェアパッケージです。また、計算言語学にも利用されています。カタロニア語、中国語(簡体字)、オランダ語、英語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スロベニア語、スペイン語のテキストをKH Coderで分析できます。

Answered by ko-ichi-h

Jan 16, 2024

その後、java-nlp-user メーリングリストに2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。

2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字（traditional Chinese）をサポートしていない旨、投稿されていました。

その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか？と返信されていました。

Stanford SegmenterのRelease Historyを見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。

したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。

View full answer

ko-ichi-h · 2024-01-15T05:10:34Z

ko-ichi-h
Jan 15, 2024
Maintainer

（1）データを簡体字に変換してから分析してみると、結果はどう変化しますか？

（2）KH Coder 3 Beta版のサポート（積極的な改修）は終了していますので、論文に掲載されるような重要な分析については、KH Coder 3正式版のご利用をお勧めします。

0 replies

ko-ichi-h · 2024-01-15T06:11:33Z

ko-ichi-h
Jan 15, 2024
Maintainer

確かに繁体字でも結果は出るのですが、簡体字の方がいくらか正確なように見えますでしょうか？

KH Coderでは文を語に分けるのにStanford Segmenterを、品詞を認識するのにStanford POS Taggerを使っています。繁体字でもいけるのかどうか、辞書の収録数に違いがあるのかなど、詳細はこれらのソフトウェアのドキュメントをご覧いただけますか？　私の方でも今少し調べたのですが、すぐには情報にたどり着けませんでした。分かったら、是非ここでお教えください。

ここを見ると、少なくとも以前は簡体字（simplified）のみだったようです。
https://techfinder.stanford.edu/technology/stanford-chinese-word-segmenter

0 replies

kusajun · 2024-01-15T07:34:09Z

kusajun
Jan 15, 2024
Author

早速のご連絡ありがとうございます。（1）については比較したデータが現在ありませんので、後ほどサンプルを比較した結果をご報告させていただきます。（2）については御教示のとおり正式版を使用させていただきます。 2024年1月15日(月) 14:10 ko-ichi-h ***@***.***>:

…

（1）データを簡体字に変換してから分析してみると、結果はどう変化しますか？（2）KH Coder 3 Beta版のサポート（積極的な改修）は終了していますので、論文に掲載されるような重要な分析については、KH Coder 3正式版のご利用をお勧めします。 — Reply to this email directly, view it on GitHub <#1181 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/BFLBEUPZZCYFPYYHELPLDVLYOS25LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRYHE2TQ> . You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

kusajun · 2024-01-15T07:35:49Z

kusajun
Jan 15, 2024
Author

御教示いただいたソフトを私の方でも調べてみたいと思います。ありがとうございました。 2024年1月15日(月) 15:11 ko-ichi-h ***@***.***>:

…

確かに繁体字でも結果は出るのですが、「東京」が固有名詞になるところを見ると、簡体字の方が辞書に入っている語が多いのかな？という感じでしょうか。 2024-01-15-15_03_14-.png (view on web) <https://github.com/ko-ichi-h/khcoder/assets/12220822/22434f77-8309-4716-b33b-60b7061f78e1> KH Coderでは文を語に分けるのにStanford Segmenter <https://nlp.stanford.edu/software/segmenter.shtml>を、品詞を認識するのにStanford POS Tagger <https://nlp.stanford.edu/software/tagger.shtml>を使っています。繁体字でもいけるのかどうか、辞書の収録数に違いがあるのかなど、詳細はこれらのソフトウェアのドキュメントをご覧いただけますか？私の方でも今少し調べたのですが、すぐには情報にたどり着けませんでした。 — Reply to this email directly, view it on GitHub <#1181 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/BFLBEUP6N3N5JLELKD7JXRDYOTCB7AVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRZGIZTO> . You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

kusajun · 2024-01-15T11:16:38Z

kusajun
Jan 15, 2024
Author

（1）サンプルを分析してみました。繁体字テキストと簡体字テキストで異なり語数、延べ語数がかなり違うという結果が出ました（150/119対162/113）。ちなみにテキストは梁啓超の『新民説』第一節です。参考に頻出150単語も以下のとおり抽出しましたが、かなり違いがあることが分かりました。ちなみに左が繁体字で右が簡体字です。優劣は俄かには付け難いところではあります。 [image: image.png] 2024年1月15日(月) 14:10 ko-ichi-h ***@***.***>:

…

（1）データを簡体字に変換してから分析してみると、結果はどう変化しますか？（2）KH Coder 3 Beta版のサポート（積極的な改修）は終了していますので、論文に掲載されるような重要な分析については、KH Coder 3正式版のご利用をお勧めします。 — Reply to this email directly, view it on GitHub <#1181 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/BFLBEUPZZCYFPYYHELPLDVLYOS25LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCMRYHE2TQ> . You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

ko-ichi-h · 2024-01-15T13:24:19Z

ko-ichi-h
Jan 15, 2024
Maintainer

うーん、何かしら違う結果になるということですね。

なおGithubの仕様で、メールによる返信ではファイルが添付されないので、結果を見れていませんし、また見たとしても私の中国語レベルは低いので分からないかもしれません。

個人的な経験から、たとえば本来は「名詞」なのに間違って「動詞」に分類しているというように、品詞の判定が間違っていても、それほど分析には大きな影響がないことが多いように思います。一方で、上の「高齢誕」「下」のように、語の取り出しそのものが上手くいかないと、分析に影響がでるように思います。

語の取り出しに注目すると、正体字（繁体字）と簡体字とで、どちらの方が良さそうといったことはありますでしょうか。

0 replies

ko-ichi-h · 2024-01-16T03:59:43Z

ko-ichi-h
Jan 16, 2024
Maintainer

Stanford Word Segmenter

まず文から単語を取り出しているStanford Word Segmenterについては、Chinese Treebank 7 (CTB7)のデータから学習しているという記載がありました（配布ファイル内のREADME-Chinese.txt）。

"data/ctb.gz" is trained with the training data in the LDC Chinese Treebank 7

以前のCTBには簡体字（simplified）のデータしか含まれていなかったようです。
https://www.jstage.jst.go.jp/article/jnlp/17/3/17_3_3_61/_pdf
https://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/D1-3.pdf
https://aclanthology.org/W12-6332.pdf

しかし、Chinese Treebank 4からは、「Sinorama magazine, Taiwan」のデータが追加されています。「Taiwan」ですから、これは繁体字のデータである可能性があります。

ですから、CTB7の全データから学習していれば、繁体字のデータも学習に使われている可能性があります。

Stanford POS Tagger

次に、品詞判定を行っているStanford POS Taggerについては、次の記述がありました（配布ファイルのmodels/REAME-models.txt）。

Trained on a combination of CTB7 texts from Chinese and Hong Kong sources.

Hong Kongということは、繁体字のデータも学習に用いているということかもしれません。

調べてみて分かったのは、今のところここまでです。

うーん、確実を期すには、Stanford NLP Groupに問い合わせるしかないでしょうか。

あるいは、繁体字データが文字化けしないだけで、未知の文字扱いされているのではなく、きちんと分析されていることが分かるような解析結果になっていれば、解析結果を見て判断するというのも一手でしょうか。

0 replies

ko-ichi-h · 2024-01-16T08:55:06Z

ko-ichi-h
Jan 16, 2024
Maintainer

その後、java-nlp-user メーリングリストに2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。

2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字（traditional Chinese）をサポートしていない旨、投稿されていました。

その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか？と返信されていました。

Stanford SegmenterのRelease Historyを見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。

したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。

0 replies

kusajun · 2024-01-16T10:08:39Z

kusajun
Jan 16, 2024
Author

色々と調べていただきありがとうございました。御教示のとおり簡体字に変換した上でβ版でなく正式版で分析をしてみたいと思います。また不明な点がありましたら連絡させていただきます。御教示本当にありがとうございました。 2024年1月16日(火) 17:55 ko-ichi-h ***@***.***>:

…

その後、java-nlp-user メーリングリスト <https://mailman.stanford.edu/mailman/listinfo/java-nlp-user> に2012年から加入していたことを思い出して、そこでの古いやりとりを検索してみました。 2014年6月に、プロジェクト側の方が、Stanford Segmenterは繁体字（traditional Chinese）をサポートしていない旨、投稿されていました。その際、「繁体字のデータを投入しても悪くない結果になるけど、なぜだろう」というやりとりがありました。プロジェクト側の方は、簡体字と繁体字とで、多くの同じ文字が使われているからではないか？と返信されていました。 Stanford SegmenterのRelease History <https://nlp.stanford.edu/software/segmenter.shtml#History> を見ると、2014年6月以降に、繁体字のサポートが加わった形跡は見られません。したがって、残念ながら、少なくともStanford Segmenterによる語を切り出す処理に関しては、繁体字はサポートされていないようです。繁体字のデータを投入してもそれほど悪くない結果にはなるようですが、おそらく、簡体字に変換していただいた方が、良い結果になるのではないかと思われます。 — Reply to this email directly, view it on GitHub <#1181 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/BFLBEUL4WJYKZMGB7USEZJDYOY57LAVCNFSM6AAAAABB2VMD5KVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4DCNBRGQ4DO> . You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中国語正体字（繁体字）テキストの分析について #1181

{{title}}

Replies: 9 comments

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

中国語正体字（繁体字）テキストの分析について #1181

kusajun Jan 15, 2024

お使いのKH Coderのバージョン

ご質問の内容をお書きください

Replies: 9 comments

ko-ichi-h Jan 15, 2024 Maintainer

ko-ichi-h Jan 15, 2024 Maintainer

kusajun Jan 15, 2024 Author

kusajun Jan 15, 2024 Author

kusajun Jan 15, 2024 Author

ko-ichi-h Jan 15, 2024 Maintainer

ko-ichi-h Jan 16, 2024 Maintainer

Stanford Word Segmenter

Stanford POS Tagger

ko-ichi-h Jan 16, 2024 Maintainer

kusajun Jan 16, 2024 Author

kusajun
Jan 15, 2024

ko-ichi-h
Jan 15, 2024
Maintainer

ko-ichi-h
Jan 15, 2024
Maintainer

kusajun
Jan 15, 2024
Author

kusajun
Jan 15, 2024
Author

kusajun
Jan 15, 2024
Author

ko-ichi-h
Jan 15, 2024
Maintainer

ko-ichi-h
Jan 16, 2024
Maintainer

ko-ichi-h
Jan 16, 2024
Maintainer

kusajun
Jan 16, 2024
Author