Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Crawler MS Judikatura - prověřit #223

Open
tpapouskova opened this issue Jan 5, 2018 · 0 comments
Open

Crawler MS Judikatura - prověřit #223

tpapouskova opened this issue Jan 5, 2018 · 0 comments
Assignees

Comments

@tpapouskova
Copy link
Contributor

tpapouskova commented Jan 5, 2018

Při procházení výsledků crawlování jsem narazila na následující zvláštnosti, které by bylo třeba prověřit/pořešit a hlavně se i zamyslet, jak je budeme řešit při pravidelném crawlování.

  1. je třeba domluvit se na preferovaném formátu výstupu (zda .csv nebo .json) pro účely importu do databáze (pokud .csv, bylo by v něm ale třeba zachovat všechny informace, nyní se například ve sloupci "Heslo" směšuje více hesel do jednoho, nijak neodděleného řetězce)
  2. do výstupu by bylo třeba ještě přidat sloupec se stabilním odkazem na rozhodnutí vedoucím na web MS (vypadá to, že stačí zkopírovat z adresní řádky), aby to bylo připravené na import do naší databáze
  3. bude třeba (opět pro účely pozdějšího importu do naší databáze) v rámci výstupu normalizovat sp. zn. (na webu MS je mají ve špatném formátu, za číslem soudního oddělení jim chybí mezera) - https://cs.wikipedia.org/wiki/Spisov%C3%A1_zna%C4%8Dka
  4. v metadatech MS je řada překlepů, především je potřeba vyřešit špatně zapsané sp. zn. - ručně? pak je třeba i přejmenovat náležité .txt soubory, které nemají ECLI označení (je třeba je pojmenovat nejen správnou sp. zn., ale i označením soudu, ať je to jednoznačné, ideálně tedy vytvořit pseudoecli)
  5. u několika případů (cca 20-30) chybí v metadatech datum rozhodnutí - ručně doplnit?
  6. v některých (ale ne ve všech) .txt souborech je stejný text rozhodnutí vícekrát pod sebou (viz například ECLI_CZ_KSBRJI_2009_54.CO.915.2009.1.txt) - není to ale chyba crawlování, je to takto již na webu MS - asi bych tedy spíše neřešila
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants