中国語データを前処理すると(データ中に存在しない)英単語だけが抽出される #697
Replies: 6 comments
-
こんにちは、樋口です。書き込みありがとうございます。 エラーや文字化けなどの問題がある場合は、テンプレートをなるべく埋めるようにしていただけますでしょうか。今回の場合には、特に以下の項目についてはお答えいただければと存じます。 ■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか? ■その問題を再現できるファイル(群) ■分析しようとしているのは何語のテキストですか? ■分析対象として指定しているファイルの形式は何ですか? |
Beta Was this translation helpful? Give feedback.
-
樋口先生
メール拝受いたしました。
ご返信いただき誠にありがとうございます。
本文も作成して投稿したのですが、なぜかアップロードできませんでした。
添付ファイルの削除の仕方もわからず、GitHubへの問い合わせのメールも
拒否されるという状況で連絡の仕様がなく、大変失礼いたしました。
こちらで改めて説明をさせていただきます。
バージョンはKH coder3.Beta.01a
解凍フォルダはkhcoder3です。
言語は中国語(簡体字)です。
ファイルはExcel形式(.xlsx)です。問題があった際には、CSV形式(.csv)及びメモ帳も使ってみました。
パソコンAにて前日まで問題なく使用していたものが、昨日突然以下の症状で使えなくなりました。
1.プロジェクトは新規・開くとも作成できるが、前処理をすると単純集計が「1」になっている(データ数は477)。
この状況で抽出語リストを開くと、あるはずのない英単語がリストになっている(頻度はすべて1)。
2.前処理は突然できるようになったが、結果は文字化けしていて判読できない。
これらは、ファイル形式を変えて試しても解決できませんでした。
この後、パソコンBを使用したところ、何の問題もなく使えました。
ところが、このパソコンBは、3か月前にはKH coderが作動せず(起動はOK)使えなかったのです。
なぜ同じパソコンで使えたり使えなかったりするのか不思議です。
チュートリアルの漱石「こころ」データはまだ試しておりませんでした。次回問題が起こった時にしてみます。
どうぞよろしくお願いいたします。
HIGUCHI Koichi <[email protected]> 於 2020年7月23日 週四 下午12:38寫道:
… こんにちは、樋口です。書き込みありがとうございます。
エラーや文字化けなどの問題がある場合は、テンプレートをなるべく埋めるようにしていただけますでしょうか。今回の場合には、特に以下の項目についてはお答えいただければと存じます。
■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか?
→記入例:はい、いいえ
■その問題を再現できるファイル(群)
チュートリアルの漱石「こころ」データでは問題が生じない場合、もし可能であれば、その問題を再現できる分析対象ファイル等を添付してください。
■分析しようとしているのは何語のテキストですか?
→記入例:日本語、英語、ロシア語、中国語など
■分析対象として指定しているファイルの形式は何ですか?
→記入例:テキスト形式(.txt)、Excel形式(.xlsx)、CSV形式(.csv)など
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-662803379>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQL6BYC6VYSJEK2UV4XCGALR46WBPANCNFSM4PFJXEYA>
.
|
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 ひとまずパソコンBで処理できるので、さしあたり、問題は解決されているということでしょうか。 これは #76 #196 #223 と同じで、Stanford Segmenterがメモリ不足を訴えて動作しないという現象です。原因は不明ですが、今のところ考えられる対処法は以下のようなものです。もしパソコンBでも同じ現象が起こったら、お試しいただくと良いかもしれません。 (1)PCを再起動して前処理を試す (2)PCを再起動してネットワークから切断して前処理を試す (3)PCを再起動してウイルス対策やセキュリティ系のソフトを無効にしてから前処理を試す (4)64bit版のJAVAを試してみる
(5)Stanford Segmenter 3.9.2を試す
|
Beta Was this translation helpful? Give feedback.
-
樋口先生
早速にご返信いただき、誠にありがとうございます。以前に同様の質問があったのを
見つけられず失礼いたしました。
原因がStanford Segmenterがメモリ不足と認識することにあるとのこと承知いたしました。
こうしたソフトはネットワークに接続していないと使えないと思い込んでおりました。
次回に問題が発生した時にこれで対応してみます。
中国語に対応するよいテキストマイニングソフトが見つからず、半ばあきらめておりましたので
非常にありがたく使わせていただいております。
今後ともどうぞよろしくお願いいたします。
HIGUCHI Koichi <[email protected]> 於 2020年7月24日 週五 上午11:02寫道:
… こんにちは、樋口です。書き込みありがとうございます。
ひとまずパソコンBで処理できるので、さしあたり、問題は解決されているということでしょうか。
これは #76 <https://github.com/ko-ichi-h/khcoder/issues/76> #196
<https://github.com/ko-ichi-h/khcoder/issues/196> #223
<https://github.com/ko-ichi-h/khcoder/issues/223> と同じで、Stanford
Segmenterがメモリ不足を訴えて動作しないという現象です。原因は不明ですが、今のところ考えられる対処法は以下のようなものです。もしパソコンBでも同じ現象が起こったら、お試しいただくと良いかもしれません。
(1)PCを再起動して前処理を試す
(2)PCを再起動してネットワークから切断して前処理を試す
※ネットワークケーブルを抜いたり、WiFiを無効にしてネットワークから切断してください。
(3)PCを再起動してウイルス対策やセキュリティ系のソフトを無効にしてから前処理を試す
※ウイルス対策やセキュリティ系のソフトをご自身でインストールされている場合は、これもお試し下さい。
(4)Stanford Segmenter 3.9.2を試す
1. \dep\stanford-segmenter フォルダの中身をすべて削除
2. Stanford word segmenter 3.9.2を
https://nlp.stanford.edu/software/segmenter.shtml の一番下からダウンロード
3. ダウンロードしたファイルを解凍して、出てきた中身をすべて \dep\stanford-segmenter フォルダにコピー
4. 前処理を試す
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-663315690>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQL6BYFIEP75NJC2JTJXHOTR5DTSPANCNFSM4PFJXEYA>
.
|
Beta Was this translation helpful? Give feedback.
-
こんにちは、樋口です。書き込みありがとうございます。 考えられる対処法を盛り込んだバージョンを先ほど3.Beta.01fとしてリリースしました。お時間があるときにパソコンAでお試しいただけましたら幸いです。あるいはパソコンBでもし同じエラーになった際にはお試しください。 中国語の場合は、Stop wordsを指定することで、一部の語をどのプロジェクトでも分析から除外するよう指定した方が楽だろうと思います。Stop wordsの指定方法については、よろしかったら英語版のチュートリアルをご覧下さい。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生
メール拝受いたしました。
ご多忙の中バージョンへもご対応くださりありがとうございます。
中国語では抽出された語の確認に手間のかかることがありましたので、
Stop wordsも来週早速試してみます。
ありがとうございました。
HIGUCHI Koichi <[email protected]> 於 2020年7月24日 週五 下午8:49寫道:
… こんにちは、樋口です。書き込みありがとうございます。
考えられる対処法を盛り込んだバージョンを先ほど3.Beta.01fとしてリリースしました。お時間があるときにパソコンAでお試しいただけましたら幸いです。あるいはパソコンBでもし同じエラーになった際にはお試しください。
中国語の場合は、Stop wordsを指定することで、一部の語をどのプロジェクトでも分析から除外するよう指定した方が楽だろうと思います。Stop
wordsの指定方法については、よろしかったら英語版のチュートリアルをご覧下さい。
http://khcoder.net/en/
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<https://github.com/ko-ichi-h/khcoder/issues/224#issuecomment-663501091>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AQL6BYAFXSSVPNCZEELHAHTR5FYNBANCNFSM4PFJXEYA>
.
|
Beta Was this translation helpful? Give feedback.
-
お世話になります。
KH Coder のバージョン 3.Beta.01a
解凍先フォルダ CWD: kh coder3
エクセルでデータを作成し、中国語の分析をしています。
昨日まで問題なく作動していましたが、今日突然以下のようなエラーで分析ができなくなりました。
1.プロジェクトでファイルは受け付けますが、前処理をするとデータが正しく読み込まれません。再起動したり、CSVファイルにする等をしても同様です。
コンソール画面等.pptx
ファイルを開いた際のコンソール画面とメニュー画面を添付しております。
添付した画面では日本語バージョンになっていますが、分析の時には中国語にしています。
2.前処理はできますが、結果を見ようとすると文字化けしていて読めません。
掲示板では同様の質問が見つけられませんでした。
どうぞよろしくお願いします。
※樋口注記 お書きいただいた文章の先頭に「<!--」が付いていたため、「コメント」と見なされ、文章が表示されていませんでした。
Beta Was this translation helpful? Give feedback.
All reactions