Skip to content

「前処理データの整合性が失われました。variable1…」 + 韓国語データのプロットにおける漢字の文字化け #1160

Discussion options

You must be logged in to vote

以前の論文が上手くいったとのこと、なによりと存じます。

さて今回の問題は、残念ながら対策に手間を要しそうな感じです。

詳細マニュアル +alphaのA.2.1節にて、日本語データの場合は、改行で区切られていない1つの行が4,000を超えてはいけないことが書いています。韓国語データについては書いていなかったのですが、韓国語データの場合、初声・中声・終声の字母に分解して入力(Hangul Jamo「ハングル字母」領域の文字で入力)していることから、制限がさらに厳しくて、1行1000字未満が目安になると思います。

この制限を超えていたために、本文の解析に失敗していました。その結果として、外部変数とケース数が合わなくなっていました。

原因となったのは、段落わけの改行が削除されていて、1行が非常に長くなっているセル群です。

対策としては、もとの記事の段落分けの箇所で、セル内改行(Alt + Enter)を入れていただくか、いっそ1行1文にしていただくかでしょうか。1行1文にするのは、テキストエディタ上で「. 」(ピリオドと半角スペース)を、ピリオドと改行文字に置換すれば、少なくとも1度に1つの記事については自動で行なえるかと思います。(改行入りのテキストをExcelに貼り付ける際は、セルをダブルクリックしてから貼り付けるようご注意ください)

記事の数が100強なので、すべての記事をチェックして、改行がないものについては(段落ごとまたは文ごとの)改行を追加していただくのが確実かと思われます。

p.s.
1行の長さ制限を緩和できないか、MeCabのリポジトリでおうかがい中ですが、お返事…

Replies: 1 comment 4 replies

Comment options

You must be logged in to vote
4 replies
@ko-ichi-h
Comment options

@Katsumi1967
Comment options

@ko-ichi-h
Comment options

@Katsumi1967
Comment options

Answer selected by ko-ichi-h
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Non-English Communication in Japanese language. error
2 participants