You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Při procházení výsledků crawlování jsem narazila na následující zvláštnosti, které by bylo třeba prověřit/pořešit a hlavně se i zamyslet, jak je budeme řešit při pravidelném crawlování.
je třeba domluvit se na preferovaném formátu výstupu (zda .csv nebo .json) pro účely importu do databáze (pokud .csv, bylo by v něm ale třeba zachovat všechny informace, nyní se například ve sloupci "Heslo" směšuje více hesel do jednoho, nijak neodděleného řetězce)
do výstupu by bylo třeba ještě přidat sloupec se stabilním odkazem na rozhodnutí vedoucím na web MS (vypadá to, že stačí zkopírovat z adresní řádky), aby to bylo připravené na import do naší databáze
bude třeba (opět pro účely pozdějšího importu do naší databáze) v rámci výstupu normalizovat sp. zn. (na webu MS je mají ve špatném formátu, za číslem soudního oddělení jim chybí mezera) - https://cs.wikipedia.org/wiki/Spisov%C3%A1_zna%C4%8Dka
v metadatech MS je řada překlepů, především je potřeba vyřešit špatně zapsané sp. zn. - ručně? pak je třeba i přejmenovat náležité .txt soubory, které nemají ECLI označení (je třeba je pojmenovat nejen správnou sp. zn., ale i označením soudu, ať je to jednoznačné, ideálně tedy vytvořit pseudoecli)
u několika případů (cca 20-30) chybí v metadatech datum rozhodnutí - ručně doplnit?
v některých (ale ne ve všech) .txt souborech je stejný text rozhodnutí vícekrát pod sebou (viz například ECLI_CZ_KSBRJI_2009_54.CO.915.2009.1.txt) - není to ale chyba crawlování, je to takto již na webu MS - asi bych tedy spíše neřešila
The text was updated successfully, but these errors were encountered:
Při procházení výsledků crawlování jsem narazila na následující zvláštnosti, které by bylo třeba prověřit/pořešit a hlavně se i zamyslet, jak je budeme řešit při pravidelném crawlování.
The text was updated successfully, but these errors were encountered: