中国語データを前処理すると（データ中に存在しない）英単語だけが抽出される #697

cjcustudy · 2020-07-23T03:07:01Z

cjcustudy
Jul 23, 2020

お世話になります。
KH Coder のバージョン　3.Beta.01a
解凍先フォルダ　CWD: kh coder3

エクセルでデータを作成し、中国語の分析をしています。
昨日まで問題なく作動していましたが、今日突然以下のようなエラーで分析ができなくなりました。

１．プロジェクトでファイルは受け付けますが、前処理をするとデータが正しく読み込まれません。再起動したり、CSVファイルにする等をしても同様です。
コンソール画面等.pptx
ファイルを開いた際のコンソール画面とメニュー画面を添付しております。
添付した画面では日本語バージョンになっていますが、分析の時には中国語にしています。
２．前処理はできますが、結果を見ようとすると文字化けしていて読めません。

掲示板では同様の質問が見つけられませんでした。
どうぞよろしくお願いします。

※樋口注記　お書きいただいた文章の先頭に「<!--」が付いていたため、「コメント」と見なされ、文章が表示されていませんでした。

ko-ichi-h · 2020-07-23T03:37:44Z

ko-ichi-h
Jul 23, 2020
Maintainer

こんにちは、樋口です。書き込みありがとうございます。

エラーや文字化けなどの問題がある場合は、テンプレートをなるべく埋めるようにしていただけますでしょうか。今回の場合には、特に以下の項目についてはお答えいただければと存じます。

■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか？
→記入例：はい、いいえ

■その問題を再現できるファイル（群）
チュートリアルの漱石「こころ」データでは問題が生じない場合、もし可能であれば、その問題を再現できる分析対象ファイル等を添付してください。

■分析しようとしているのは何語のテキストですか？
→記入例：日本語、英語、ロシア語、中国語など

■分析対象として指定しているファイルの形式は何ですか？
→記入例：テキスト形式（.txt）、Excel形式（.xlsx）、CSV形式（.csv）など

0 replies

cjcustudy · 2020-07-24T01:20:55Z

cjcustudy
Jul 24, 2020
Author

樋口先生メール拝受いたしました。ご返信いただき誠にありがとうございます。本文も作成して投稿したのですが、なぜかアップロードできませんでした。添付ファイルの削除の仕方もわからず、GitHubへの問い合わせのメールも拒否されるという状況で連絡の仕様がなく、大変失礼いたしました。こちらで改めて説明をさせていただきます。バージョンはKH coder3.Beta.01a 解凍フォルダはkhcoder3です。言語は中国語（簡体字）です。ファイルはExcel形式（.xlsx）です。問題があった際には、CSV形式（.csv）及びメモ帳も使ってみました。パソコンAにて前日まで問題なく使用していたものが、昨日突然以下の症状で使えなくなりました。１．プロジェクトは新規・開くとも作成できるが、前処理をすると単純集計が「１」になっている（データ数は477）。この状況で抽出語リストを開くと、あるはずのない英単語がリストになっている（頻度はすべて１）。２．前処理は突然できるようになったが、結果は文字化けしていて判読できない。これらは、ファイル形式を変えて試しても解決できませんでした。この後、パソコンBを使用したところ、何の問題もなく使えました。ところが、このパソコンBは、３か月前にはKH coderが作動せず（起動はOK）使えなかったのです。なぜ同じパソコンで使えたり使えなかったりするのか不思議です。チュートリアルの漱石「こころ」データはまだ試しておりませんでした。次回問題が起こった時にしてみます。どうぞよろしくお願いいたします。 HIGUCHI Koichi <[email protected]> 於 2020年7月23日週四下午12:38寫道：

…

こんにちは、樋口です。書き込みありがとうございます。エラーや文字化けなどの問題がある場合は、テンプレートをなるべく埋めるようにしていただけますでしょうか。今回の場合には、特に以下の項目についてはお答えいただければと存じます。 ■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか？ →記入例：はい、いいえ ■その問題を再現できるファイル（群）チュートリアルの漱石「こころ」データでは問題が生じない場合、もし可能であれば、その問題を再現できる分析対象ファイル等を添付してください。 ■分析しようとしているのは何語のテキストですか？ →記入例：日本語、英語、ロシア語、中国語など ■分析対象として指定しているファイルの形式は何ですか？ →記入例：テキスト形式（.txt）、Excel形式（.xlsx）、CSV形式（.csv）など — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-662803379>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AQL6BYC6VYSJEK2UV4XCGALR46WBPANCNFSM4PFJXEYA> .

0 replies

ko-ichi-h · 2020-07-24T02:02:01Z

ko-ichi-h
Jul 24, 2020
Maintainer

こんにちは、樋口です。書き込みありがとうございます。

ひとまずパソコンBで処理できるので、さしあたり、問題は解決されているということでしょうか。

これは #76 #196 #223 と同じで、Stanford Segmenterがメモリ不足を訴えて動作しないという現象です。原因は不明ですが、今のところ考えられる対処法は以下のようなものです。もしパソコンBでも同じ現象が起こったら、お試しいただくと良いかもしれません。

（1）PCを再起動して前処理を試す

（2）PCを再起動してネットワークから切断して前処理を試す
　※ネットワークケーブルを抜いたり、WiFiを無効にしてネットワークから切断してください。

（3）PCを再起動してウイルス対策やセキュリティ系のソフトを無効にしてから前処理を試す
　※ウイルス対策やセキュリティ系のソフトをご自身でインストールされている場合は、これもお試し下さい。

（4）64bit版のJAVAを試してみる

「dep」→「AdoptOpenJDK」フォルダの中身をすべて削除する
64bit版のAdopt OpenJDKをダウンロード
ダウンロードしたファイルを解凍し、「bin」「lib」等の中身をすべて「dep」→「AdoptOpenJDK」フォルダにコピーする
前処理を試す

（5）Stanford Segmenter 3.9.2を試す

\dep\stanford-segmenter フォルダの中身をすべて削除
Stanford word segmenter 3.9.2を https://nlp.stanford.edu/software/segmenter.shtml の一番下からダウンロード
ダウンロードしたファイルを解凍して、出てきた中身をすべて \dep\stanford-segmenter フォルダにコピー
前処理を試す

0 replies

cjcustudy · 2020-07-24T02:44:07Z

cjcustudy
Jul 24, 2020
Author

樋口先生早速にご返信いただき、誠にありがとうございます。以前に同様の質問があったのを見つけられず失礼いたしました。原因がStanford Segmenterがメモリ不足と認識することにあるとのこと承知いたしました。こうしたソフトはネットワークに接続していないと使えないと思い込んでおりました。次回に問題が発生した時にこれで対応してみます。中国語に対応するよいテキストマイニングソフトが見つからず、半ばあきらめておりましたので非常にありがたく使わせていただいております。今後ともどうぞよろしくお願いいたします。 HIGUCHI Koichi <[email protected]> 於 2020年7月24日週五上午11:02寫道：

…

こんにちは、樋口です。書き込みありがとうございます。ひとまずパソコンBで処理できるので、さしあたり、問題は解決されているということでしょうか。これは #76 <https://github.com/ko-ichi-h/khcoder/issues/76> #196 <https://github.com/ko-ichi-h/khcoder/issues/196> #223 <https://github.com/ko-ichi-h/khcoder/issues/223> と同じで、Stanford Segmenterがメモリ不足を訴えて動作しないという現象です。原因は不明ですが、今のところ考えられる対処法は以下のようなものです。もしパソコンBでも同じ現象が起こったら、お試しいただくと良いかもしれません。（1）PCを再起動して前処理を試す（2）PCを再起動してネットワークから切断して前処理を試す ※ネットワークケーブルを抜いたり、WiFiを無効にしてネットワークから切断してください。（3）PCを再起動してウイルス対策やセキュリティ系のソフトを無効にしてから前処理を試す ※ウイルス対策やセキュリティ系のソフトをご自身でインストールされている場合は、これもお試し下さい。（4）Stanford Segmenter 3.9.2を試す 1. \dep\stanford-segmenter フォルダの中身をすべて削除 2. Stanford word segmenter 3.9.2を https://nlp.stanford.edu/software/segmenter.shtml の一番下からダウンロード 3. ダウンロードしたファイルを解凍して、出てきた中身をすべて \dep\stanford-segmenter フォルダにコピー 4. 前処理を試す — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-663315690>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AQL6BYFIEP75NJC2JTJXHOTR5DTSPANCNFSM4PFJXEYA> .

0 replies

ko-ichi-h · 2020-07-24T11:49:21Z

ko-ichi-h
Jul 24, 2020
Maintainer

こんにちは、樋口です。書き込みありがとうございます。

考えられる対処法を盛り込んだバージョンを先ほど3.Beta.01fとしてリリースしました。お時間があるときにパソコンAでお試しいただけましたら幸いです。あるいはパソコンBでもし同じエラーになった際にはお試しください。

中国語の場合は、Stop wordsを指定することで、一部の語をどのプロジェクトでも分析から除外するよう指定した方が楽だろうと思います。Stop wordsの指定方法については、よろしかったら英語版のチュートリアルをご覧下さい。
http://khcoder.net/en/

0 replies

cjcustudy · 2020-07-25T03:03:20Z

cjcustudy
Jul 25, 2020
Author

樋口先生メール拝受いたしました。ご多忙の中バージョンへもご対応くださりありがとうございます。中国語では抽出された語の確認に手間のかかることがありましたので、 Stop wordsも来週早速試してみます。ありがとうございました。 HIGUCHI Koichi <[email protected]> 於 2020年7月24日週五下午8:49寫道：

…

こんにちは、樋口です。書き込みありがとうございます。考えられる対処法を盛り込んだバージョンを先ほど3.Beta.01fとしてリリースしました。お時間があるときにパソコンAでお試しいただけましたら幸いです。あるいはパソコンBでもし同じエラーになった際にはお試しください。中国語の場合は、Stop wordsを指定することで、一部の語をどのプロジェクトでも分析から除外するよう指定した方が楽だろうと思います。Stop wordsの指定方法については、よろしかったら英語版のチュートリアルをご覧下さい。 http://khcoder.net/en/ — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-663501091>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AQL6BYAFXSSVPNCZEELHAHTR5FYNBANCNFSM4PFJXEYA> .

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中国語データを前処理すると（データ中に存在しない）英単語だけが抽出される #697

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 6 comments

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

中国語データを前処理すると（データ中に存在しない）英単語だけが抽出される #697

cjcustudy Jul 23, 2020

Replies: 6 comments

ko-ichi-h Jul 23, 2020 Maintainer

cjcustudy Jul 24, 2020 Author

ko-ichi-h Jul 24, 2020 Maintainer

cjcustudy Jul 24, 2020 Author

ko-ichi-h Jul 24, 2020 Maintainer

cjcustudy Jul 25, 2020 Author

cjcustudy
Jul 23, 2020

ko-ichi-h
Jul 23, 2020
Maintainer

cjcustudy
Jul 24, 2020
Author

ko-ichi-h
Jul 24, 2020
Maintainer

cjcustudy
Jul 24, 2020
Author

ko-ichi-h
Jul 24, 2020
Maintainer

cjcustudy
Jul 25, 2020
Author