-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
doc,docx,pdfで文字を取り出せない #1
Comments
pdfの方は、再現したので、調査を進めています。 なるべく再現した環境と同じ状態にしたいので、Windowsでどうやってchupa-text-dockerをセットアップしたかを教えていただけないでしょうか? |
手順は下記になります。
http://localhost:20080/extraction へブラウザでアクセスしてファイルを選択してExtract実行で再現します。 |
手順のご連絡ありがとうございます。 すみません。。。手元ですぐに動かせるWindows機がないので、解析に少し時間がかかります。(VirtualBox上ではDockerが動かないようなので。。。) |
対応ありがとうございます。 chupa-text-http-serverでも検証してみました。 テスト.doc 再現手順(Hyper-V上のWin10 Enterpriseで確認)
http://localhost:3000/extraction へブラウザでアクセスしてファイルを選択してExtract実行。 |
CIサービスのAppVeyorでDockerを使えたので試してみました。 ボリュームのパスに (今回の件とは関係ないけどこれはこれでどうにかしないといけない。) chupa-text-http-serverで これは ただ、 chupa-text-http-serverでPDFからテキスト抽出できていないのは https://github.com/ranguba/chupa-text-decomposer-pdf が組み込まれていないからです。 |
なるほど、そういうことなんですね。 decomposerを組み込んで各形式に対応しているのは分かったのですが |
あぁ、 https://github.com/ranguba/chupa-text-decomposer-mail はリリースしていなかったんですね。後でリリースしておきます。 こちらでも確認したいのでテキスト抽出できなかった.emlファイルを提供してもらえますか? |
redmine_full_text_searchで使用させて頂いているのですが、一部のファイルから文字が取り出せていません。
.doc , .docxはハングして応答なし、pdf(iTextSharpで作成)は抽出文字数が0になってしまいます。
Webアクセス方式で試しても同様でした。
環境
Windows 10 pro
Docker desktop 2.1.0.5
Chrome , Postman
ログと検証ファイルを添付します。
テスト.zip(.doc)
テスト.docx
テスト1.pdf
iTextSharp作成pdf
The text was updated successfully, but these errors were encountered: