HTMLマーキングとExcel(CSV・TSV)形式のファイル #630
Replies: 3 comments
-
詳細にお知らせいただいてありがとうございます。 H1からのH5までのタグを使えるのはテキストファイル(とWordファイル)のみでして,Excel(およびCSV・TSV)ファイルでは使用できません。 Excel系のファイルを作成する場合は,
といった形で,外部変数として他の情報を入力して分析することが考えられます。こうしたファイルを準備すれば,B列以降が外部変数として自動で読み込まれます。したがって,好きな外部変数を選ぶことで,日付・時期ごとに内容がどう変わったか,回数が進むごとに内容がどう変わったかといった分析を行えます。Excel形式だと外部変数の読み込みが比較的手軽というメリットがあります。 ただしExcel形式では,1回の相談を1ケース(1文書)と見なして分析したり,受付番号が同じ複数の相談をまとめて1ケース(1文書)と見なして分析したり,といった単位の切り替えはできません。H1・H2といった見出しを使ってテキストファイルを作成すれば,分析中にこうした単位の切り替えを行えます。Excelファイルの場合,こうした単位の切り替えをしたければ,1回の相談を1セルに入力したファイルと,受付番号が同じ相談をすべて1セルに入力したファイルを別々に作成する必要があります。 H1・H2といった見出しを使ってテキストファイルを作成して,なおかつ別途外部変数ファイルを作れば,分析中に単位も切り替えられますし,好きな外部変数を選んで使えます。ただ,外部変数ファイルを作るのが少し面倒かと思います。 まとめると以下のようになるかと思います。
なお,(これは書いたり書かなかったりしているのですが)Issueの新規作成時には、「○○先生」「○○さま」のように、特定の人だけに宛てて書くような書き出しは避けて下さい。この「Issues」は誰でも返信・議論できる場であり,開発者以外の方にも積極的に質問への返信をご投稿いただければと願っています。新規作成時には,宛名はなしでかまわないと思いますし,書きたい場合は「○○さま,皆さま」のようにしていただければと存じます。Issueを新規作成した後,議論が始まってからは,返信先を明示したい場合もあるでしょうから,適宜,宛名をお書きください。 |
Beta Was this translation helpful? Give feedback.
-
ありがとうございました さくらエディタをもちいて、再度慎重に作業したところ、うまくいきました |
Beta Was this translation helpful? Give feedback.
-
相談内容のテキストに改行が含まれていた箇所が2つあったのかなと思われます。分析する上で害はないと思います。それでも気になられる場合は,Excel上でCLEAN関数を使えば,セル内の改行を削除できると思います。 |
Beta Was this translation helpful? Give feedback.
-
樋口先生はじめまして
東京の公益財団で、今年度からテキストマイニングに取り組んでいる左海と申します
この夏、ステップアップ講習会に参加の予定です
■お使いのKH Coderのバージョン
KH Coder 3(最新版)ダウンロード(3.Alpha.16j - 2019 06/25)
■KH Coderのインストール先フォルダ(解凍先フォルダ)
CWD: C:/khcoder3
■どんなエラー・不具合・問題ですか?
約3万件の電話相談を分析しようとしています
以下のように受付番号ー相談回という二層構造でHTMLマーキングを試みましたが、認識されません
<H1>全角数字受付番号</H1>
<H2>2018/04/04第1回</H2>
2003年に・・・・以下電話相談内容
<H2>2018/04/05第2回</H2>
昨日現在の・・・・以下電話相談内容
ただし、文(複数の相談回から構成)と段落(相談回ごとの相談内容)で、HTMLマーキングを単純に削除しても、目的は達成できそうです
古い掲示板をみて、いくつか参考になりそうな記事がありますが、試行錯誤がうまくいっていません
■どのように操作すればその問題を再現できますか?
エクセルまたは、CSVのデータ読み込み
■エラー・メッセージ
特になし
■コンソール・ウィンドウの表示内容(Macではターミナルの表示内容)
Locale: cp932
This is KH Coder 3.Alpha.16f on MSWin32.
CWD: C:/khcoder3
Available Physical Memory: 2047MB
Checking MySQL connection...
Starting MySQL...
2019-07-08 10:43:48 0 [Note] bin\mysqld (mysqld 5.6.39-log) starting as process 8372 ...
R Version: 3.1, x86_64
Using un-threaded functions...
Checking icode (jp3)... cp932
Checking icode (jp3)... cp932
Conv: 38 wallclock secs ( 9.45 usr + 4.23 sys = 13.69 CPU)
Connected to MySQL 5.6, khc10.
Data dir: C:/khcoder3/config/khc10/
Connected to MySQL 5.6, khc10.
Checking icode (jp2)... ascii
MySQL: FLUSH
Checking icode (jp1)... utf8
done: 00:00:53
Checking icode (jp2)... utf8
Checking icode (jp2)... utf8
cmdline: mecab -Ochasen -p -r "C:/khcoder3/dep/mecab/etc/mecabrc" -o "C:/khcoder3/config/khc10/khc10_ch.txt.tmp" "C:/khcoder3/config/khc10/khc10_mph.txt.tmp"
Morpho1 95 wallclock secs (41.72 usr + 1.98 sys = 43.70 CPU)
Single row: 300 bytes
The HEAP table will eat approx. 2378MB; We have 1547MB max.
We are going to use MyISAM instead of HEAP...
Read 97 wallclock secs ( 1.23 usr + 0.86 sys = 2.09 CPU)
Format 27 wallclock secs ( 0.23 usr + 0.05 sys = 0.28 CPU)
Strat1 396 wallclock secs (52.22 usr + 14.48 sys = 66.70 CPU)
Strat2 53 wallclock secs ( 0.11 usr + 0.09 sys = 0.20 CPU)
RawTXT 100 wallclock secs (20.48 usr + 12.23 sys = 32.72 CPU)
df 302 wallclock secs ( 0.02 usr + 0.00 sys = 0.02 CPU)
fc 29 wallclock secs ( 0.00 usr + 0.00 sys = 0.00 CPU)
Check 0 wallclock secs ( 0.05 usr + 0.05 sys = 0.09 CPU)
MySQL: FLUSH
Morpho File: C:/khcoder3/config/khc10/khc10_ch.txt
■その問題はチュートリアルの漱石「こころ」データでも同様に発生しましたか?
いいえ
こころのサンプルデータは、HTMLマーキングがふっていないのです
■その問題を再現できるファイル(群)
準備中
■お使いのOS
Windows server2012 R2
Beta Was this translation helpful? Give feedback.
All reactions