Skip to content

Latest commit

 

History

History
46 lines (34 loc) · 2.91 KB

README.md

File metadata and controls

46 lines (34 loc) · 2.91 KB

これは何?

日本 厚生労働省が毎月公開しているブラック企業の一覧を、TSVファイルにしたものです。

このTSVデータのライセンス

CC0 1.0

ファイルの解説とディレクトリ構造

company_list_yyyymmdd_to_yyyymmdd.tsv:

  • TOPに配置されているTSVファイルが、現在作業が完了している最新版です。
  • yyyymmddは、オリジナルのPDF内に示されている、公開対象になっている期間を代入しています。
  • テキストはタブ区切りのTSVファイルになっています。違反法条のカラム内は複数の情報が含まれており、カンマで区切られています。

170510-01.pdf:

  • オリジナルのPDFファイルです。同じディレクトリ内に配置されているTSVはこのファイルから作成されています。

00n-yyyymmdd_to_yyyymmddディレクトリ:

  • 過去分のTSVおよびその時点のオリジナルとなったPDFファイルを格納しています。

どうやって作っているの?

PDFからコピペしたテキストを、改行1つ1つ、丹精を込めて手作りで整形していま----した。

現在は @frogcat氏の作成したスクリプトにより、PDFから半自動化して情報を抜き出しています。Thank you!

作成手順

  1. オリジナルのPDFをWord2016で開き、htmlで保存する
  2. 保存したhtmlをgistにアップロード
  3. frogcat氏の変換用gistスクリプトをForkし、index.html内に含まれる対象gistのURLを、適切なgist(のRAWのURL)に変更
  4. bl.ocks.org経由で、変換用gistのアドレスを表示させる
  5. できあがったCSVに含まれる改行などを適度に処理する

リクエストなどなど

Issueまでお寄せください

利活用事例

出典表記

労働基準関係法令違反に係る公表事案(厚生労働省) (http://www.mhlw.go.jp/kinkyu/dl/170510-01.pdf) を加工して作成