Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Kvalita RPO #21

Open
1 of 3 tasks
jsuchal opened this issue Apr 10, 2018 · 22 comments
Open
1 of 3 tasks

Kvalita RPO #21

jsuchal opened this issue Apr 10, 2018 · 22 comments

Comments

@jsuchal
Copy link
Member

jsuchal commented Apr 10, 2018

V RPO https://ekosystem.slovensko.digital/otvorene-data#rpo su vseliake duplicity a spinave data. Bolo by fajne spravit reporty, ktore vedia odhalit v akom rozsahu a ake chyby tam su. Pripadne to reportovat na statisticky urad. Napady na reporty:

  • Pravnicke osoby co maju duplicitne ICO/IPO v jednom casovom okamihu.
  • Rovnake pravnicke osoby, rozne ICO/IPO.
  • Akekolvek divne / neuveritelne / chybajuce fieldy (napr. velke vklady, prilis dlhe nazvy osob/firiem, neuveritelne datumy v buducnosti/minulosti)

Kto ma napad na dalsie nech doplni.

@danielstaleiny
Copy link

Pravnicke osoby co maku duplicitne IPO v tom istom casovom rozpati
https://bi.ekosystem.slovensko.digital/question/178

@jsuchal
Copy link
Member Author

jsuchal commented May 14, 2018 via email

@ebalgava
Copy link

ebalgava commented May 19, 2018

Ku " Rovnake pravnicke osoby, rozne ICO/IPO." som spravila "RPO DQ Check - Organizations with multiple currently effective identifiers" https://bi.ekosystem.slovensko.digital/question/179

  • Pre niektore organizacie tam vychadza viac zaznamov v organization_identifier_entries ku jednej organization bez udaneho effective_to s rovnakym effective_from aj aj rovnakym ICO - napr ICO 36531740 alebo 50806327 (organizations.id 452842 alebo 9408060) - taketo pripady mi pridu ako duplcitine naimportovane zaznamy, ci?
  • Pre ostatne organizacie sa jedna o rovnake alebo rozne ICO s roznymi effective_from - taketo pripady mi pridu ako keby sa neupdatlo effective_to predchadzajuceho zaznamu po tom ako bol vytvoreny novy zaznam a tiez mi to pride skor ako chyba importu
  • zo 30 organizacii bez udaneho effective_to ma aj take organization_identifier_entries ktore nemaju vyplnene ICO - tieto som v mojom selecte odfiltrovala, kedze si myslim ze ak nema organizacia ICO, tak by nemala mat ziaden zaznam v organization_identifier_entries - nie je to teda opat chyba importu?

Tie ID-cka ktore nemaju v popise "Hodnota zodpovedá identifikátoru v zdroji." su teda vase interne?
Kde najdem zdroj tychto dat?

@ebalgava
Copy link

Podobne ako pre organization_identifier_entries mi to vychadza aj pre organization_name_entries - RPO DQ Check - Organizations with multiple currently effective names https://bi.ekosystem.slovensko.digital/question/180
Na datach vidno ze sa lisia prevazne suffixom " v likvidácií" s neskorsim effective_from, co ma utvrdzuje v tom, ze predchadzajucim zaznamom sa neuzatvorilo effective_to po vytvoreni noveho zaznamu.

@ebalgava
Copy link

ebalgava commented May 21, 2018

Ku "Pravnicke osoby co maju duplicitne ICO/IPO v jednom casovom okamihu." som spravila zoznam ICO dnes platnych u viacerych organizacii https://bi.ekosystem.slovensko.digital/question/181 (je ich vyse 16k z vyse 794k takze v metabase mi toto query prejde len s limitom na result) a ich agregat podla kombinacii zdrojovych registrov https://bi.ekosystem.slovensko.digital/question/182
Z vysledkov vidno, ze vacsina kombinovanych zastupeni v roznych registroch je zamerna - ako napr {"Register taxislužby","Živnostenský register"} alebo {"Register finančných agentov a finančných poradcov","Živnostenský register"}

Pri cisteni dat by som sa teda zamerala len na viacnasobne zastupenia v rovnakom registri alebo pri kombinovanych zastupeniach v roznych registroch len na tie zaznamy, ktore sa odlisuju aj v nazvoch.

@jsuchal
Copy link
Member Author

jsuchal commented May 24, 2018

@ebalgava toto je super! @pavolzbell kukaj na to, podla mna to prve je bug u nas. Tie kombinacie su zaujimave.

@ebalgava
Copy link

Organizacie s rovnakym ICO v rovnakom registri (teraz 85):
https://bi.ekosystem.slovensko.digital/question/183

@drndos
Copy link

drndos commented May 26, 2018

Adresy a ich časti by bolo vhodné napárovať na číselníkové hodnoty ideálne na NUTS https://sk.wikipedia.org/wiki/SK-NUTS
To by mohlo v ďalších fázach výrazne zjednodušiť párovanie na základe adries, keďže sa mestá, ulice a podobne zapisujú rôznym spôsobom, je vhodné ich namapovať na jednoznačnú URI.
Neviem ako ťaháte dáta z RPO, v zdrojovom systéme sa niekoré záznamy odkazujú na číselník (to treba využiť) a množstvo má "noncodelistdata" (to treba nejako napárovať)
Veľmi cool by bolo pridať aj GPS súradnice ku adresám, dali by sa potom robiť pekné geospatial dopyty a vizualizácie.

@jsuchal
Copy link
Member Author

jsuchal commented May 28, 2018

@drndos Tahame to normalne z webu a tam pokial viem, ziadne taketo mapovanie neexistuje. Mozeme skusit vyziadat. V principe by tam malo byt mapovanie na register adries kde su aj gps koordinaty. Ale trosku mi unika realna pridana hodnota. Nakreslim sidla firiem na mapu a potom?

@drndos
Copy link

drndos commented May 29, 2018

Napr. sa tak dá zistiť hustota štátnych zákaziek na nejakú oblasť a podobne. Alebo rôzne korelácie vzhľadom na vzdialenosť / lokalitu. Prípadne sa tak dajú robiť celkom pekné vizualizácie.

@jsuchal
Copy link
Member Author

jsuchal commented Jun 1, 2018 via email

@pocelka
Copy link

pocelka commented Oct 2, 2018

Ahoj,

Mohol by si prosim priblizit v kratkosti o co sa v tychto datach jedna? Ak mame s niecim pomoct bolo by dobre vediet minimalne:

  • Co sa snazite dosiahnut tymto spolocnym registrom, resp. naco bude pouzivany / urceny?
  • Odkial tieto data tahate?
    => Zatial som to pochopil tak, ze na Slovensku existuje viac registrov, kde sa nachadzaju rozne / podobne / totozne informacie o pravnickych osobach
  • Data su v originalnom datovom modely alebo je to uz Vas upraveny model?
    => Ak robime nejaky report chyba moze byt aj u Vas aj na zdroji. Na zaklade reportu potom kontaktujete zdrojovy svet aby si data opravili? Reaguju vobec? Tzn. je tam sanca, ze sa nieco opravi? Aku maju reakcnu dobu?

Mam problem vytvorit novy report v tom BI riesni? Ked tam vlozim SQL, ktore mi na lokale funguje tak u Vas na webe mi to pise: "org.postgresql.util.PSQLException: ERROR: canceling statement due to statement timeout". Vies s tym nejako helfnut?

@ebalgava
Copy link

ebalgava commented Oct 2, 2018

Zdroje su popisane vramci https://ekosystem.slovensko.digital/otvorene-data#rpo

Metabase BI mi zvykne hadzat timeout pri velkych resultoch - zvacsa staci limit na rows alebo znizit pocet zobrazovanych columns, najma pri dlhych textoch.

@pocelka
Copy link

pocelka commented Oct 2, 2018

@ebalgava 8 stlpcov vo vysledku mi nepride zrovna ako vela a limit nepomaha... Otazka je co je velky result, lebo do 10k riadkov nepovazujem za vela ...

@ebalgava
Copy link

ebalgava commented Oct 3, 2018

napr v query https://bi.ekosystem.slovensko.digital/question/183 staci pridat hoci jeden zo zacommentovanych stlpcov ku aktualnym 3-om zobrazenym a uz mam timeout - pri 84 riadkoch

vitaj vo svete opensource a la metabase :)
metabase/metabase#625 (comment)

@jsuchal
Copy link
Member Author

jsuchal commented Oct 3, 2018

Statement timeout je cisto limitacia, ze query musi skoncit do X sekund. S tym pocet riadkov/stlpcov suvisiet moze, ale ovela viac s tym suvisi query plan a indexovanie db. V skratke, ked tam odpalis nejake joiny a agregacie cez X tabuliek a ziadne rozumne constrainy, tak to do X sekund neskonci a tym padom to urezeme, aby nam to nevytazovalo server.

@jsuchal
Copy link
Member Author

jsuchal commented Oct 3, 2018

@pocelka - toto je register preberany zo statistickeho uradu. Data sa znazime drzat v modeli, ktory je blizky tomu oficialnemu (aj ked ten uplne nepozname, tak len podla responses ich API sudime co tam moze byt).

Pointou tejto ulohy je presne najst jednak chyby u nas (stane sa) a chyby v oficialnom registri. Chyby im hlasime aj na to reaguju. Opravy su niekedy horsie, kedze to z pravneho hladiska nie je uplne lahke zabezpecit.

@pocelka
Copy link

pocelka commented Oct 3, 2018

No ja som tie data loadol do lokalnej instancie z toho Vasho dumpu (indexy som zatial neriesil na lokale to zbieha v pohodicke) - robi sa mi lepie na lokale ako na nejakom webovom rozhrani. Zatial som spravil 2 query, ktore neviem nahodit do BI kvoli omedzeniam, ktore ste nastavili.

Vieme sa dohodnut, ze ti to nejako neposielam cez mail a kuknes na to? Zatial mam:

  • long organization names / missing organization name - 1094 zaznamov
    => kedze nebolo specifikovane co je "divna dlzka nazvu firmy" tak som si povedal, ze >= 100 znakov. Kludne to vsak moze byt aj menej

  • missing record in identifiers table or record exists but IPO is empty - 5369 zaznamov
    => Podla mojho nazoru by kazda pravnicka osoba mala mat nejaky identifikator. Samozrejme nerozumiem presne datam resp. nie som v tejto problematike doma a je mozne, ze nejake pravnicke osoby ho mat nemusia.

Add indexy / data. V tych tabulkach su trackovane aj historicke zmeny; napr. organization_name_entries obsahuje historiu zmien nazvov firmy. Neviem akym sposobom to plnite (increment / full load) ale mozno by nebolo od veci pridat nejaky stlpec indikujuci posledny zaznam v historii. akonahle potrebujem zistit posledny zaznam v historii tak vo finale mi aj tak sa to nabaluje. Pripadne po loade mozno viete spravit pre ucely DQ aspon nejake materializovane view a to oindexovat? Teda nie pre ucely dalsej distribucie dat avsak aby to nam pomohlo pri zistovani chyb?

Ja osobne mam rad denormalizovane data, kde vidim realne data pokope a nie len IDcka...

@jsuchal
Copy link
Member Author

jsuchal commented Oct 22, 2018

@pocelka ahoj, sorry za delay.

Nova info ktore mam je, ze duplicitne ico by nemalo existovat od 2005 roku. Vieme to overit?

Co sa tyka platneho zaznamu, tak to by mal byt ten co ma effective_to ako NULL.

@ebalgava
Copy link

ebalgava commented Dec 2, 2018

@jsuchal mate toto uz zodpovedane?
uz ked sa pozriem len na zaznamy s duplicitnym ICO vramci jedneho registra ktore oba vznikli od roku 2005, tak mi stale najde 16 duplicit, z coho vsetky vyzeraju nazvom alebo adresou na rovnake zaznamy, ktorych update bol asi omylom zaznamenany ako create noveho zaznamu:
https://bi.ekosystem.slovensko.digital/question/186
8 z nich je pritom z OR SR, pricom 5 z nich vzniklo vramci 'Bratislava - mestská časť Ružinov', a 4 z toho za posledny rok:
https://bi.ekosystem.slovensko.digital/question/187
tipla by som podla toho ze napr. v Ruzinove treba preskolit uradnika/ov ako robit update v rpo

@LegalEngineering
Copy link

Do tej metabase sa neviem nalogovat, tak nevidim o ktore subjekty ide, kazdopadne viem konkretne o jednej firme kde pri rozdeleni na nove spolocnosti bolo jednej novej spolocnosti pridelene totozne ICO ako spolocnosti, ktora zanikla zrusenim. Bola to chyba obchodneho registra BA I, kde sa taketo ukony zrejme vkladaju manualne, a teda vyssi sudny uradnik si nevsimol/neuvedomil, ze sice nastupnicka spolocnost ma rovnake meno a sidlo ako zanikajuca spolocnost, ale ide o pravne odlisny subjekt.. Zhodou okolnosti je to Ruzinov, tak tipujem, ze takychto pripadov mohlo byt viac. Pri klasickom zakladani spolocnosti som sa s duplicitnym ICO este nestretol, a to mi rukami presli stovky.

@ebalgava
Copy link

ebalgava commented Dec 3, 2018

Vysledky queries som vyexportovala aby bolo vidno aspon o ktorych ICO hovorim:
https://docs.google.com/spreadsheets/d/1rFJpE8fG6LDCiak9T15QXGluXK3iHkChc3ZMgtibtLc/edit?usp=sharing

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants