日本 厚生労働省が毎月公開しているブラック企業の一覧を、TSVファイルにしたものです。
- TOPに配置されているTSVファイルが、現在作業が完了している最新版です。
- yyyymmddは、オリジナルのPDF内に示されている、公開対象になっている期間を代入しています。
- テキストはタブ区切りのTSVファイルになっています。違反法条のカラム内は複数の情報が含まれており、カンマで区切られています。
- オリジナルのPDFファイルです。同じディレクトリ内に配置されているTSVはこのファイルから作成されています。
- 過去分のTSVおよびその時点のオリジナルとなったPDFファイルを格納しています。
PDFからコピペしたテキストを、改行1つ1つ、丹精を込めて手作りで整形していま----した。
現在は @frogcat氏の作成したスクリプトにより、PDFから半自動化して情報を抜き出しています。Thank you!
- オリジナルのPDFをWord2016で開き、htmlで保存する
- 保存したhtmlをgistにアップロード
- frogcat氏の変換用gistスクリプトをForkし、index.html内に含まれる対象gistのURLを、適切なgist(のRAWのURL)に変更
- bl.ocks.org経由で、変換用gistのアドレスを表示させる
- できあがったCSVに含まれる改行などを適度に処理する
Issueまでお寄せください
労働基準関係法令違反に係る公表事案(厚生労働省) (http://www.mhlw.go.jp/kinkyu/dl/170510-01.pdf) を加工して作成