Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ökad precision i Wikidataimport #55

Open
jroxendal opened this issue Feb 1, 2023 · 7 comments
Open

Ökad precision i Wikidataimport #55

jroxendal opened this issue Feb 1, 2023 · 7 comments

Comments

@jroxendal
Copy link
Collaborator

Vissa författare som importeras som properties i wikidata hamnar på fel Q-nummer. Se t.ex

https://www.wikidata.org/wiki/Q6000899
avser https://libris.kb.se/53hkngnp282nhlp (skriver om hiphop)
men vår författare https://litteraturbanken.se/författare/MöllerD/titlar
avser
https://libris.kb.se/20dgkckl01lmd80 (översättare och litteraturvetare)

detta borde dock enkelt kunna disambigueras med librisid-referensen i vår databas, se författarjson:
https://litteraturbanken.se/api/get_authors?exclude=intro,db_*,doc_type,corpus,es_id,doc_id,doc_type,corpus_id,imported,updated,sources,intro_text,wikidata,dramawebben

{
"authorid": "MöllerD",
"authorid_norm": "MollerD",
"birth": {
"date": "1974",
"plain": "1974"
},
"full_name": "Daniel Möller",
"gender": "male",
"librisid": "20dgkckl01lmd80",
"name_for_index": "Möller, Daniel",
"pictureinfo": null,
"popularity": 102,
"searchable": true,
"show": true,
"surname": "Möller"
},

@salgo60

@salgo60
Copy link

salgo60 commented Mar 2, 2023

@jroxendal Tack missa denna jag skall kolla det. Enklast är att ni bara tar bort det i Wikidata.... jag ser bara Wikidata som ett proof of concept och att det skall ge upphov till projekt med Kunskapsgrafer som Humlab startar 2023 "Sveriges Riksdag 1867–2022: Ett ekosystem av länkad öppen data" se Wikidata koppling #84

Min tanke med WD <-> Litteraturbanken är

  • att matcha era personer som har LIBRISXL id
  • att på sikt fundera över om vi inte kan använda Wikidata bättre dvs. att ni direkt lägger in saker där, jag lyssnade på LIBRISXL och Niklas i veckan och dom har inte ens ambitioner att validera sitt data så jag gissar KB blir nog aldrig en bra medspelare
  • att alla era författare oberoende av osäkerhet finns i Wikidata men att vi övertid bygger på med information ungefär som jag testade med er GeijerstamN som i WD blir graf
  • att ni skapar en egen KG som har större trovärdighet än Wikidata på sikt... dvs. det Humlab fått pengar 5 milj. av Jubileumsfonden att göra

Change Request Litteraturbanken: Önskan visa inte Show False

En önskan jag har är att när ni har show false som jag antar innebär att ingen bok finns kopplad till personen att ni inte exponerar dom. Wikidata är extremt ostrukturerat så det finns personer som skriver botar och läser in det se exempel Mix-and-Match ---> vi får enormt med städjobb tror när Litteraturbanken var nytt städade jag bort 1000 personer.... som ramlat in i Wikidata via någon okänd bot.... nu hamnar många i Mix-and-Match innan dom har böcker se idag 712 unmatched

image

  • skapade Q116946125 "Swedish Literature Bank Author ID show false/"Visas ej" hos Litteraturbanken" för att hantera detta lite strukturerat....

image

Önskan 2 all felrapportering sker på GITHUB

Jag hittade ett antal Show false personer som hade böcker kopplade till sig och lite andra fel idag rapporterar jag det via Twitter och #14

Önskan att all rapportering går via GITHUB även metadata fel

Fråga @jroxendal : Är det ok kan ni förankra det med "Martin" som svarar på twitter

Bra mönster ORCID

  • vore bra om ni för moderna författare försöker styra över dom till ORCID = Wikidata Property:P496 den växer rel. snabbt och idag har vi 2 304 052 kopplingar ex. 0000-0002-2611-4263

Navigera med WD och Histropedia

image

image

Uppkallad efter person i Litteraturbanken

image

image

Beskriven av

I Wikidata börjar vi nu ange under Beskriven av P1243 en källa som beskriver objektet se SPARQL källor som beskriver objekt kopplade till Litteraturbanken författare / tabell

image

@salgo60
Copy link

salgo60 commented Mar 2, 2023

@jroxendal Jag skapade en Notebook som kollar LIBRIS-URI i WD med Litteraturbankens librisid / tweet till dina kollegor om att vi skriver här

Date A: Litteraturbanken show H: Littbank - LibrisXL I: WD - Littbank - LIBRISXL
20230304 3719 2212 2715

image

/Magnus
tel: 0735152802
email: [email protected]
twitter: salgo60

@salgo60
Copy link

salgo60 commented Mar 3, 2023

Diff found after corrections
Notebook

  1. some records at Litteraturbanken use the old libris id e.g. BrausewetterE I think we just should use the new one.
    • I have tried to report to VIAF and LIBRISXL that they have a design debt mixing them see T223259
  2. 403 records in Litteraturbanken has empty librisid where WIkidata has an candidate see notebook and csv file CandidatesLittarurbankenLIBRISXL.csv / raw
  3. HenriksonA has the # tag
  4. CarlssonGottfrid feels like the wrong value = 22551370
  5. potential duplicates
    1. LIBRISXL SPARQL - should maybe be reported to LIBRISXL....
    2. Litteraturbanken SPARQL

Tabell med udda poster som behöver åtgärdas

se vidare CandidatesLittarurbankenLIBRISXL.csv for poster där Wikidata har LIBRISXL kandidat

Nr Wikidata Litteraturbanken authorid WD SELIBR_ID WD librisid Litteraturbanken libris
300 Q124497 BrausewetterE gdsvxxs0435cbmd 241920 241920
362 Q5603107 CarlssonGottfrid 75kmmf5r0wfckc4 180383 22551370
399 Q110761155 ChytræusB 53hkddzp5558v77 46161 64jlff0q2s2gmmp
555 Q5713067 EngströmJ 64jmq7fq5h2jspj 51784 ljx0t1n43wdl7vm
556 Q5713067 EngströmJ 64jmq7fq5h2jspj 284152 ljx0t1n43wdl7vm
567 Q5800077 EricusErici qn246mj85n434kz 226148 226148
623 Q99963520 ForsJJ 64jlp9rq25gk99r 258352 258352
662 Q5746194 FryxellF 0xbdg2gj3wj5xn5 231256 wt79czcf50q5p22
697 Q99964076 GlaserP wt79ds3f3m7m66x 253513 253513
834 Q4542909 HenriksonA 64jlmsqq3k2tkg7 190822 64jlmsqq3k2tkg7#it
961 Q6000244 JohanMånsson 53hkn8qp4kxmqck 258351 258351
1125 Q5940195 LaureliusO pm1358d72z3qkfr 217057 217057
1279 Q99965548 LundinA khwztrz323ht5kd 72783 72783
1324 Q5974992 MannerfeltO 97mqvpkt2mgmqrr 321085 321085
1387 Q41406 MunchE 53hkld1p1hbsskz 208221 208221
1410 Q64025337 NathorstA vs68cp7d036k6vf 251862 251862
1508 Q382714 OlssonAnders sq46759b3mxspkl 212861 tr5787vc2sm1pgz
1509 Q382714 OlssonAnders sq46759b3mxspkl 212380 tr5787vc2sm1pgz
1611 Q6066002 ReenhielmJ 1zcfjxxk55m0gzc 253247 253247
1667 Q6082497 RudbeckiusPJyngre 75kmp35r521gcmk 225383 226309
1794 Q331173 SiwertzS 53hkmp4p441gsh7 216411 216411
2000 Q1039042 TornbergCJ qn2595h850wr0xq 321518 321518

Tabell med > 400 poster där Litteraturbanken saknar LIBRISXL men Wikidata har kandidat

se Notebook 20230304

image

@salgo60 salgo60 mentioned this issue Mar 3, 2023
@salgo60
Copy link

salgo60 commented Mar 3, 2023

FryxellF har fått felkoppling till Wikidpedia

image

@salgo60
Copy link

salgo60 commented Mar 4, 2023

Kommunicera samma som kanske Litteraturbanken skall ha andra än LIBRISXL

Min bild av LIBRISXL är att dom borde ha alla författare som Litteraturbanken scannar in...

image

==>

Authoritativeness is (Mostly) a Myth

Intressant reflektion att oldschools aktörer som VIAF, LIBRIS, Riksarkivet, RAÄ är mindre viktiga idag om dom inte hänger med och levererar data utan har dålig kvalitet PLUS särskilt om dom inte uppfyller min lista The Magnus list

image

image

Försök med Riksarkivet att ha Things not strings

@salgo60
Copy link

salgo60 commented Mar 6, 2023

OT Notebook som checkar om bilder finns i Svenskt Porträttarkiv där WD saknar bilder

image

image

@lb-martin
Copy link

lb-martin commented Mar 28, 2023

Hej @salgo60! Jag ber om ursäkt för den sena återkopplingen. Jag är alltså den Martin som brukar svara dig på Twitter. När det gäller felaktigheter i metadata och databasfiler kan du pinga mig på GitHub framöver! (Jag är ingen GitHub-guru, men det ger väl med sig med tiden.)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants