-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Kvalita RPO #21
Comments
Pravnicke osoby co maku duplicitne IPO v tom istom casovom rozpati |
Toto sice vyzera fajn, ale je tam este jedna haluz v RPO s ktoru treba
ratat. Rovno odfiltruj vsetky rpo.organizations co maju source_register is
null. Tie mozes ignorovat, su to pomocne data co sa pouzivaju niekde vo
vypisoch ale nie su firma ako taka. Model som nevymyslel ja, stazovat sa
treba za miliony eur uplne inde. :(
…On Mon, May 14, 2018 at 11:52 PM Daniel Rafaj ***@***.***> wrote:
Pravnicke osoby co maku duplicitne IPO v tom istom casovom rozpati
https://bi.ekosystem.slovensko.digital/question/178
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<#21 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AABm5t92JREYeGAAfI7_8fFTHVS2lJYHks5tyfy1gaJpZM4TO9N_>
.
|
Ku " Rovnake pravnicke osoby, rozne ICO/IPO." som spravila "RPO DQ Check - Organizations with multiple currently effective identifiers" https://bi.ekosystem.slovensko.digital/question/179
Tie ID-cka ktore nemaju v popise "Hodnota zodpovedá identifikátoru v zdroji." su teda vase interne? |
Podobne ako pre organization_identifier_entries mi to vychadza aj pre organization_name_entries - RPO DQ Check - Organizations with multiple currently effective names https://bi.ekosystem.slovensko.digital/question/180 |
Ku "Pravnicke osoby co maju duplicitne ICO/IPO v jednom casovom okamihu." som spravila zoznam ICO dnes platnych u viacerych organizacii https://bi.ekosystem.slovensko.digital/question/181 (je ich vyse 16k z vyse 794k takze v metabase mi toto query prejde len s limitom na result) a ich agregat podla kombinacii zdrojovych registrov https://bi.ekosystem.slovensko.digital/question/182 Pri cisteni dat by som sa teda zamerala len na viacnasobne zastupenia v rovnakom registri alebo pri kombinovanych zastupeniach v roznych registroch len na tie zaznamy, ktore sa odlisuju aj v nazvoch. |
@ebalgava toto je super! @pavolzbell kukaj na to, podla mna to prve je bug u nas. Tie kombinacie su zaujimave. |
Organizacie s rovnakym ICO v rovnakom registri (teraz 85): |
Adresy a ich časti by bolo vhodné napárovať na číselníkové hodnoty ideálne na NUTS https://sk.wikipedia.org/wiki/SK-NUTS |
@drndos Tahame to normalne z webu a tam pokial viem, ziadne taketo mapovanie neexistuje. Mozeme skusit vyziadat. V principe by tam malo byt mapovanie na register adries kde su aj gps koordinaty. Ale trosku mi unika realna pridana hodnota. Nakreslim sidla firiem na mapu a potom? |
Napr. sa tak dá zistiť hustota štátnych zákaziek na nejakú oblasť a podobne. Alebo rôzne korelácie vzhľadom na vzdialenosť / lokalitu. Prípadne sa tak dajú robiť celkom pekné vizualizácie. |
Toto uz robi verejne.digital a pravdu povediac nevidim tam velku pridanu
hodnotu.
…On Tue, May 29, 2018 at 9:28 AM Filip Bednárik ***@***.***> wrote:
Napr. sa tak dá zistiť hustota štátnych zákaziek na nejakú oblasť a
podobne. Alebo rôzne korelácie vzhľadom na vzdialenosť / lokalitu. Prípadne
sa tak dajú robiť celkom pekné vizualizácie.
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<#21 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AABm5pCgrYoVAuYFR6WeFq-Fhq2bfmFjks5t3PiSgaJpZM4TO9N_>
.
|
Ahoj, Mohol by si prosim priblizit v kratkosti o co sa v tychto datach jedna? Ak mame s niecim pomoct bolo by dobre vediet minimalne:
Mam problem vytvorit novy report v tom BI riesni? Ked tam vlozim SQL, ktore mi na lokale funguje tak u Vas na webe mi to pise: "org.postgresql.util.PSQLException: ERROR: canceling statement due to statement timeout". Vies s tym nejako helfnut? |
Zdroje su popisane vramci https://ekosystem.slovensko.digital/otvorene-data#rpo Metabase BI mi zvykne hadzat timeout pri velkych resultoch - zvacsa staci limit na rows alebo znizit pocet zobrazovanych columns, najma pri dlhych textoch. |
@ebalgava 8 stlpcov vo vysledku mi nepride zrovna ako vela a limit nepomaha... Otazka je co je velky result, lebo do 10k riadkov nepovazujem za vela ... |
napr v query https://bi.ekosystem.slovensko.digital/question/183 staci pridat hoci jeden zo zacommentovanych stlpcov ku aktualnym 3-om zobrazenym a uz mam timeout - pri 84 riadkoch vitaj vo svete opensource a la metabase :) |
Statement timeout je cisto limitacia, ze query musi skoncit do X sekund. S tym pocet riadkov/stlpcov suvisiet moze, ale ovela viac s tym suvisi query plan a indexovanie db. V skratke, ked tam odpalis nejake joiny a agregacie cez X tabuliek a ziadne rozumne constrainy, tak to do X sekund neskonci a tym padom to urezeme, aby nam to nevytazovalo server. |
@pocelka - toto je register preberany zo statistickeho uradu. Data sa znazime drzat v modeli, ktory je blizky tomu oficialnemu (aj ked ten uplne nepozname, tak len podla responses ich API sudime co tam moze byt). Pointou tejto ulohy je presne najst jednak chyby u nas (stane sa) a chyby v oficialnom registri. Chyby im hlasime aj na to reaguju. Opravy su niekedy horsie, kedze to z pravneho hladiska nie je uplne lahke zabezpecit. |
No ja som tie data loadol do lokalnej instancie z toho Vasho dumpu (indexy som zatial neriesil na lokale to zbieha v pohodicke) - robi sa mi lepie na lokale ako na nejakom webovom rozhrani. Zatial som spravil 2 query, ktore neviem nahodit do BI kvoli omedzeniam, ktore ste nastavili. Vieme sa dohodnut, ze ti to nejako neposielam cez mail a kuknes na to? Zatial mam:
Add indexy / data. V tych tabulkach su trackovane aj historicke zmeny; napr. organization_name_entries obsahuje historiu zmien nazvov firmy. Neviem akym sposobom to plnite (increment / full load) ale mozno by nebolo od veci pridat nejaky stlpec indikujuci posledny zaznam v historii. akonahle potrebujem zistit posledny zaznam v historii tak vo finale mi aj tak sa to nabaluje. Pripadne po loade mozno viete spravit pre ucely DQ aspon nejake materializovane view a to oindexovat? Teda nie pre ucely dalsej distribucie dat avsak aby to nam pomohlo pri zistovani chyb? Ja osobne mam rad denormalizovane data, kde vidim realne data pokope a nie len IDcka... |
@pocelka ahoj, sorry za delay. Nova info ktore mam je, ze duplicitne ico by nemalo existovat od 2005 roku. Vieme to overit? Co sa tyka platneho zaznamu, tak to by mal byt ten co ma |
@jsuchal mate toto uz zodpovedane? |
Do tej metabase sa neviem nalogovat, tak nevidim o ktore subjekty ide, kazdopadne viem konkretne o jednej firme kde pri rozdeleni na nove spolocnosti bolo jednej novej spolocnosti pridelene totozne ICO ako spolocnosti, ktora zanikla zrusenim. Bola to chyba obchodneho registra BA I, kde sa taketo ukony zrejme vkladaju manualne, a teda vyssi sudny uradnik si nevsimol/neuvedomil, ze sice nastupnicka spolocnost ma rovnake meno a sidlo ako zanikajuca spolocnost, ale ide o pravne odlisny subjekt.. Zhodou okolnosti je to Ruzinov, tak tipujem, ze takychto pripadov mohlo byt viac. Pri klasickom zakladani spolocnosti som sa s duplicitnym ICO este nestretol, a to mi rukami presli stovky. |
Vysledky queries som vyexportovala aby bolo vidno aspon o ktorych ICO hovorim: |
V RPO https://ekosystem.slovensko.digital/otvorene-data#rpo su vseliake duplicity a spinave data. Bolo by fajne spravit reporty, ktore vedia odhalit v akom rozsahu a ake chyby tam su. Pripadne to reportovat na statisticky urad. Napady na reporty:
Kto ma napad na dalsie nech doplni.
The text was updated successfully, but these errors were encountered: