「前処理データの整合性が失われました。variable1…」 + 韓国語データのプロットにおける漢字の文字化け #1160
-
お使いのKH CoderのバージョンKHCoder Mac版Ver.3.Beta.05b エラー・不具合について詳しくお書きください■お使いのOS ■KH Coderのインストール先フォルダ(解凍先フォルダ) ■どんなエラー・不具合・問題ですか? ■どのように操作すればその問題を再現できますか? 先日、対応分析での次元数の選択についてアドバイスいただいた者です。お陰様でなんとか査読を通りました。公開されたら書誌情報を登録させていただきます。ありがとうございました。 今回は別の分析を始めようとして壁にぶち当たってしまいました。 分析対象は、1988〜2022年の韓国大統領の特定記念日2つの演説と関連する韓国の新聞社説です。これを「年、記念日名、大統領名、演説か社説の別、備考、見出し(社説のみ該当、演説の場合は空欄)、本文」と分けてExcelに入力しました。備考までの欄は日本語で入力し、見出しと本文は韓国語テキストをサイトからコピペです。(実際にはMacのNumbersの方が軽快に動くので、そちらで入力し、Excelに書き出しています。) これを新規プロジェクトに登録し、前処理しようとしたところ、「前処理データの整合性が失われました。variable1…(variable6まで)」というエラーになってしまいました。いろいろ試行錯誤したのですが、うまくいきません。 まずデータを小分けにしてみることにしました。「演説」と「社説」に分け、まずは「演説」を前処理しようとしても同じエラー。記念日AとBに分けてみると、Bは問題ありませんでした。次にAをさらに10年ごとに区切り、エラーが出た区間はさらに細かく区切って検証すると、どうも1993年の記念日Aに問題がありそうでした。記念日Aの「93、94年」の2年分をまとめたデータだとエラー、94年だけだとOK、93年だけだとエラーでした。 そこで今度は93年の記念日A演説だけを削除し、残りの演説だけのファイルを作りました。ところが、それだとやはり「前処理データの整合性が失われました。variable1…(variable6まで)」エラーです。試しに「92〜94年の記念日A演説」を削除し、残りの演説をファイルにまとめると、これは正常に処理できました。 次にcsvにして試してみることにしました。文字コードはUTF8でcsvに書き出したのですが、やはり「前処理データの整合性が失われました。variable1…(variable6まで)」。ところが、何の気なしに単にcsvとなっている書き出しで試してみると、前処理をできました。ただしshift-JISなのでしょうか。人間が見ると文字化けしているので、意味はなさない代物です。 「社説」だけのファイルを作ってみると、こちらもやはり「前処理データの整合性が失われました。variable1…(variable6まで)」です。とりあえず「演説」ファイルで納得いく方法を見つけられないと無駄だろうと考え、こちらはそれ以上のテストをしていません。 ツイッターに書かれているアドバイスには「テキストと外部変数のケース数が合わない時に出るエラーです」ともあったので、余計な行や列の削除などもしてみたのですが、変化なしです。 ■エラー・メッセージ ■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか? ■その問題を再現できるファイル(群) ■分析しようとしているのは何語のテキストですか? ■分析対象として指定しているファイルの形式は何ですか? ■お使いのセキュリティ対策/ウイルス対策ソフトウェア ■お使いのCPU コンソール・ウィンドウの表示内容(Macではターミナルの表示内容)を貼り付けてくださいLast login: Tue Nov 28 14:26:26 on ttys000
katsumiair@sawadakatsuminoMacBook-Air ~ % bash -c ' cd "/Applications/khcoder3/";export LANG_BAK=$LANG;export TMPDIR="/Applications/khcoder3/config";export LANG=ja_JP.UTF-8;export LC_ALL=ja_JP.UTF-8;export XMODIFIERS="@im=uim";export GTK_IM_MODULE=uim;export DYLD_FALLBACK_LIBRARY_PATH="/Applications/khcoder3/deps/mysql-5.6.17/lib"; ./x_mac64'
Encoding of this Console: UTF-8
Encoding of this file system: UTF-8
Perl/Tk: 804.032
Locale: ja_JP.UTF-8
This is KH Coder 3.Beta.05b on darwin.
CWD: /Applications/khcoder3
Executing Mac OS X 64-bit Package
Checking MySQL connection...
uim <-> XIM bridge. Supporting multiple locales.
Using full-synchronous XIM event flow
Supported conversion engines:
direct (*)
yahoo-jp (ja)
baidu-olime-jp (ja)
google-cgiapi-jp (ja)
social-ime (ja)
ajax-ime (ja)
look ()
ipa-x-sampa ()
viqr (vi)
pinyin-big5 (zh_TW:zh_HK)
pyunihan (zh)
py (zh_CN)
wb86 (zh_CN:zh_TW:zh_HK)
zm (zh_CN:zh_TW:zh_HK)
m17n-am-sera (am)
m17n-ar-kbd (ar)
m17n-as-inscript (as)
m17n-as-itrans (as)
m17n-as-phonetic (as)
m17n-ath-phonetic (ath)
m17n-be-kbd (be)
m17n-bla-phonetic (bla)
m17n-bn-inscript (bn)
m17n-bn-itrans (bn)
m17n-bn-probhat (bn)
m17n-bn-unijoy (bn)
m17n-bo-ewts (bo)
m17n-bo-tcrc (bo)
m17n-bo-wylie (bo)
m17n-latn-post (*)
m17n-latn-pre (*)
m17n-rfc1345 (*)
m17n-syrc-phonetic (*)
m17n-unicode (*)
m17n-cmc-kbd (cmc)
m17n-cr-western (cr)
m17n-cs-kbd (cs)
m17n-da-post (da)
m17n-dv-phonetic (dv)
m17n-el-kbd (el)
m17n-eo-h-fundamente (eo)
m17n-eo-h-sistemo (eo)
m17n-eo-plena (eo)
m17n-eo-q-sistemo (eo)
m17n-eo-vi-sistemo (eo)
m17n-eo-x-sistemo (eo)
m17n-fa-isiri (fa)
m17n-fr-azerty (fr)
m17n-grc-mizuochi (grc)
m17n-gu-inscript (gu)
m17n-gu-itrans (gu)
m17n-gu-phonetic (gu)
m17n-he-kbd (he)
m17n-hi-inscript (hi)
m17n-hi-itrans (hi)
m17n-hi-phonetic (hi)
m17n-hi-remington (hi)
m17n-hi-typewriter (hi)
m17n-hi-vedmata (hi)
m17n-hr-kbd (hr)
m17n-hy-kbd (hy)
m17n-ii-phonetic (ii)
m17n-en-ispell (en)
m17n-iu-phonetic (iu)
m17n-ja-anthy (ja)
m17n-ja-tcode (ja)
m17n-ja-trycode (ja)
m17n-ka-kbd (ka)
m17n-kk-arabic (kk)
m17n-kk-kbd (kk)
m17n-km-yannis (km)
m17n-kn-inscript (kn)
m17n-kn-itrans (kn)
m17n-kn-kgp (kn)
m17n-ko-han2 (ko)
m17n-ko-romaja (ko)
m17n-ks-inscript (ks)
m17n-ks-kbd (ks)
m17n-lo-kbd (lo)
m17n-lo-lrt (lo)
m17n-ml-inscript (ml)
m17n-ml-itrans (ml)
m17n-ml-mozhi (ml)
m17n-ml-swanalekha (ml)
m17n-mr-inscript (mr)
m17n-mr-itrans (mr)
m17n-mr-phonetic (mr)
m17n-my-kbd (my)
m17n-ne-rom (ne)
m17n-ne-trad (ne)
m17n-nsk-phonetic (nsk)
m17n-oj-phonetic (oj)
m17n-or-inscript (or)
m17n-or-itrans (or)
m17n-or-phonetic (or)
m17n-pa-inscript (pa)
m17n-pa-itrans (pa)
m17n-pa-jhelum (pa)
m17n-pa-phonetic (pa)
m17n-ps-phonetic (ps)
m17n-ru-kbd (ru)
m17n-ru-phonetic (ru)
m17n-ru-translit (ru)
m17n-ru-yawerty (ru)
m17n-sa-harvard-kyoto (sa)
m17n-sa-IAST (sa)
m17n-sd-inscript (sd)
m17n-si-phonetic-dynamic (si)
m17n-si-samanala (si)
m17n-si-singlish (si)
m17n-si-sumihiri (si)
m17n-si-transliteration (si)
m17n-si-wijesekera (si)
m17n-sk-kbd (sk)
m17n-sr-kbd (sr)
m17n-sv-post (sv)
m17n-ta-inscript (ta)
m17n-ta-itrans (ta)
m17n-ta-lk-renganathan (ta)
m17n-ta-phonetic (ta)
m17n-ta-tamil99 (ta)
m17n-ta-typewriter (ta)
m17n-ta-vutam (ta)
m17n-tai-sonla-kbd (tai)
m17n-te-apple (te)
m17n-te-inscript (te)
m17n-te-itrans (te)
m17n-te-pothana (te)
m17n-te-rts (te)
m17n-th-kesmanee (th)
m17n-th-pattachote (th)
m17n-th-tis820 (th)
m17n-ua-kbd (ua)
m17n-ug-kbd (ug)
m17n-ur-phonetic (ur)
m17n-uz-kbd (uz)
m17n-vi-han (vi)
m17n-vi-nomvni (vi)
m17n-vi-nomtelex (vi)
m17n-vi-tcvn (vi)
m17n-vi-telex (vi)
m17n-vi-viqr (vi)
m17n-vi-vni (vi)
m17n-yi-yivo (yi)
m17n-zh-bopomofo (zh)
m17n-zh-cangjie (zh)
m17n-zh-pinyin-vi (zh)
m17n-zh-pinyin (zh)
m17n-zh-py-b5 (zh)
m17n-zh-py-gb (zh)
m17n-zh-py (zh)
m17n-zh-quick (zh)
m17n-zh-tonepy-b5 (zh)
m17n-zh-tonepy-gb (zh)
m17n-zh-tonepy (zh)
elatin ()
latin ()
byeoru (ko)
tutcode (ja)
skk (ja)
prime (ja)
anthy-utf8 (ja)
anthy (ja)
mozc (ja)
XMODIFIERS=@im=uim registered, selecting anthy (ja) as default conversion engine
starting R: "/Applications/khcoder3/deps/R-3.1.0/Resources/bin/R" --slave --vanilla
ram_r 8192
R Version: 3.1, x86_64
Using un-threaded functions...
Connected to MySQL 5.6, khc210.
MySQL integrity check: pass, /Applications/khcoder3/deps/mysql-5.6.17
Trying out a different dialog method for darwin...
Trying out a different dialog method for darwin...
Checking icode (en)... iso-8859-1 or utf8
Checking icode (jp2)... utf8
command line: DYLD_FALLBACK_LIBRARY_PATH="/Applications/khcoder3/deps/chasen/lib:/Applications/khcoder3/deps/mecab/lib:/Applications/khcoder3/deps/freeling40/lib:/Applications/khcoder3/deps/AdoptOpenJDK/lib:/Applications/khcoder3/deps/mysql-5.6.17/lib" ./deps/mecab/bin/mecab -r "/Applications/khcoder3/deps/mecab/etc/mecabrc" -d "/Applications/khcoder3/deps/handic" -p -Ochasen -o "/Applications/khcoder3/config/khc210/khc210_ch.txt.tmp" "/Applications/khcoder3/config/khc210/khc210_mph.txt.tmp"
Morpho1 1 wallclock secs ( 1.14 usr 0.08 sys + 0.08 cusr 0.02 csys = 1.32 CPU)
Single row: 260 bytes
The HEAP table will eat approx. 6MB; We have 1024MB max.
Read 0 wallclock secs ( 0.00 usr + 0.01 sys = 0.01 CPU)
Format 1 wallclock secs ( 0.05 usr + 0.01 sys = 0.06 CPU)
Strat1 1 wallclock secs ( 0.44 usr + 0.01 sys = 0.45 CPU)
Strat2 0 wallclock secs ( 0.01 usr + 0.00 sys = 0.01 CPU)
RawTXT 0 wallclock secs ( 0.06 usr + 0.01 sys = 0.07 CPU)
df: heap df: heap df: heap df 0 wallclock secs ( 0.01 usr + 0.00 sys = 0.01 CPU)
fc 0 wallclock secs ( 0.00 usr + 0.00 sys = 0.00 CPU)
variable error: var_id 1, var_name 年, cases_var 112, cases 9
variable error: var_id 2, var_name 記念日, cases_var 112, cases 9
variable error: var_id 3, var_name 大統領, cases_var 112, cases 9
variable error: var_id 4, var_name 種別, cases_var 112, cases 9
variable error: var_id 5, var_name 備考, cases_var 112, cases 9
variable error: var_id 6, var_name 見出し, cases_var 112, cases 9
Trying out a different dialog method for darwin... |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 4 replies
-
以前の論文が上手くいったとのこと、なによりと存じます。 さて今回の問題は、残念ながら対策に手間を要しそうな感じです。 詳細マニュアル +alphaのA.2.1節にて、日本語データの場合は、改行で区切られていない1つの行が4,000を超えてはいけないことが書いています。韓国語データについては書いていなかったのですが、韓国語データの場合、初声・中声・終声の字母に分解して入力(Hangul Jamo「ハングル字母」領域の文字で入力)していることから、制限がさらに厳しくて、1行1000字未満が目安になると思います。 この制限を超えていたために、本文の解析に失敗していました。その結果として、外部変数とケース数が合わなくなっていました。 原因となったのは、段落わけの改行が削除されていて、1行が非常に長くなっているセル群です。 対策としては、もとの記事の段落分けの箇所で、セル内改行(Alt + Enter)を入れていただくか、いっそ1行1文にしていただくかでしょうか。1行1文にするのは、テキストエディタ上で「. 」(ピリオドと半角スペース)を、ピリオドと改行文字に置換すれば、少なくとも1度に1つの記事については自動で行なえるかと思います。(改行入りのテキストをExcelに貼り付ける際は、セルをダブルクリックしてから貼り付けるようご注意ください) 記事の数が100強なので、すべての記事をチェックして、改行がないものについては(段落ごとまたは文ごとの)改行を追加していただくのが確実かと思われます。 p.s. |
Beta Was this translation helpful? Give feedback.
以前の論文が上手くいったとのこと、なによりと存じます。
さて今回の問題は、残念ながら対策に手間を要しそうな感じです。
詳細マニュアル +alphaのA.2.1節にて、日本語データの場合は、改行で区切られていない1つの行が4,000を超えてはいけないことが書いています。韓国語データについては書いていなかったのですが、韓国語データの場合、初声・中声・終声の字母に分解して入力(Hangul Jamo「ハングル字母」領域の文字で入力)していることから、制限がさらに厳しくて、1行1000字未満が目安になると思います。
この制限を超えていたために、本文の解析に失敗していました。その結果として、外部変数とケース数が合わなくなっていました。
原因となったのは、段落わけの改行が削除されていて、1行が非常に長くなっているセル群です。
対策としては、もとの記事の段落分けの箇所で、セル内改行(Alt + Enter)を入れていただくか、いっそ1行1文にしていただくかでしょうか。1行1文にするのは、テキストエディタ上で「. 」(ピリオドと半角スペース)を、ピリオドと改行文字に置換すれば、少なくとも1度に1つの記事については自動で行なえるかと思います。(改行入りのテキストをExcelに貼り付ける際は、セルをダブルクリックしてから貼り付けるようご注意ください)
記事の数が100強なので、すべての記事をチェックして、改行がないものについては(段落ごとまたは文ごとの)改行を追加していただくのが確実かと思われます。
p.s.
1行の長さ制限を緩和できないか、MeCabのリポジトリでおうかがい中ですが、お返事…