Progetto Dati Lombardia/Relazione

Da Wikimedia Italia.
Jump to navigation Jump to search
Aggiornato! Il contenuto di questa pagina è aggiornato.

Stato valido al 30-06-2022.

Ciascun paragrafo corrisponde alle sessioni di lavoro, in cui viene riportato il procedimento, corredato da riflessioni e motivazioni delle problematiche riscontrate di volta in volta, seguite dalle soluzioni individuate e quindi adottate.

Inoltre, sono stati individuati tre macrogruppi di tuple dal db originale ai fini dell'esportazione con QS, a cui si fa riferimento occasionalmente nel corpo del testo:

  1. Architetture lombarde esistenti su Wikidata con già inserito il codice SIRBeC
  2. Architetture lombarde esistenti su Wikidata senza il codice SIRBeC
  3. Architetture lombarde non esistenti su Wikidata

Processo di lavoro

Indicazioni di metodo e primi passi

In un primo momento, si è deciso di procedere condividendo su OneDrive il file csv scaricato dal sito della Regione Lombardia. Infatti, operando modifiche sul dataset di partenza delle Architetture in locale, a fine sessione si esporta il progetto archiviandolo come file, inserendo nel commento delle cronologie delle versioni quali sono le modifiche che interessano tale versione, al fine di agevolare una futura consultazione per gli operatori. Tale scelta trova le sue motivazioni nel fatto che sarebbe controproducente dividere fisicamente in due il file dal punto di vista operativo poiché l’ordine dei beni non rispecchia una divisione per comuni o per tipologia architettonica, rendendo così ridondante il lavoro di esportazione dello schema in Wikidata. Si prevede dunque una modalità di lavoro asincrona, che può divenire sincrona tramite condivisione schermo, sebbene solitamente si operi solamente da una postazione. Si valuta inoltre l’impiego futuro di GitHub per permettere invece la sovrapposizione e il confronto tra versioni differenti riconciliabili.

Avendo stabilito il modus operandi, la fase successiva è stata quella di sistematizzare e correggere gli errori di battitura principali presenti nel dataset di partenza (maiuscole, minuscole, plurali o singolari). Procedendo di colonna in colonna, si sono riscontrati errori tramite l’apertura della finestra dei filtri per testo. Attraverso l’impiego di flag e star, è stato agevolato il processo di ricongiungimento dei campi relativi ad un’unica architettura spezzata su più righe e di eliminazione dei duplicati (tutti > modifica righe > rimuovi righe combacianti), giungendo da 17833 a 17826 righe totali. Sono stati eliminati gli spazi che fungevano da fonte di errore attraverso la funzione trim. Inoltre, attraverso la funzione cluster, è stato possibile operare modifiche su più righe come nel caso della colonna della denominazione dei beni, raggruppando ad esempio le nomenclature delle chiese affini e uniformandoli, valutando di volta in volta se mantenere le differenze o meno, cercando di trovare la soluzione grammaticalmente corretta, oltre che accettata maggiormente dalla community wikimediana. Esempi: Casa di Casa di Gorni → insere la denominazione ufficiale SIRBeC in alias e nominare la scheda Q con la dicitura più scorrevole. Durante questa fase è stata riscontrata la necessità di creare successivamente la scheda Wikidata per la tipologia architettonica del tempietto ossario, qualora non la si associ alla tipologia cappella ossario. Nel caso della Casa di via Pietro fortunato 3-7, si fa riferimento a elementi SIRBeC differenti rispetto all’omonimo al civico 37, per cui si sottolinea la necessità di controllare di volta in volta le unioni per cluster, al fine di ridurre al minimo l’errore nonostante le affinità. Attraverso espressioni di trasformazione sono stati inoltre eliminati dalla denominazione del bene i riferimenti alla tipologia di complessità del bene (eg.: “- complesso”).

Preparazione dei dati e prime riconciliazioni

Sapendo già i dati utili alla futura esportazione in Wikidata, sono state eliminate le colonne relative all’ubicazione non viabilistica, autori, stile/scuola, datazione, uso attuale e uso storico. Le colonne relative alla provincia, nonostante non siano di interesse, serviranno al controllo incrociato al momento della riconciliazione dei comuni. In seguito, è stata operata la trasformazione dei record delle coordinate, eliminando le parentesi tonde per permettere il loro inserimento nel formato previsto dalla proprietà coordinate geografiche di Wikidata. Dopo queste operazioni di pulizia dati, si è avviata la riconciliazione dei comuni. Per poter riconciliare i comuni unreconcliated e none – tramite la finestra dei filtri che è recuperabile ad ogni riapertura del progetto da riconciliazione > faccette > per giudizio - è stato necessario intervenire manualmente per i casi di ex comuni, oggi frazioni di città di recente costituzione (former municipality Q19730508) o municipality seat (Q15303838) - in quest’ultimo caso si auspica l’uso di un bot (eg.: Cavallasca), aggiornando il dato attuale corretto e trasferendo nella colonna località il dato originario. Infatti, la riconciliazione sul tipo commune of Italy (Q747074) non ritrova tutti i comuni o ex comuni.

Architetture lombarde esistenti su Wikidata con già inserito il codice SIRBeC

Riconciliazione chiave

Successivamente è stata avviata la riconciliazione sulla colonna del numero scheda SIRBeC, ritrovando 2499 elementi su Wikidata sui 2768 riscontrabili dall’elenco generato grazie al bot Listeria (vedi qui) e riscontrabile anche su Wikidata Query Service con i seguenti comandi SELECT ?item WHERE { ?item wdt:P3503 ?sub0 }. Inoltre, sono stati aggiunti i dati manualmente della denominazione del bene complesso e del numero scheda bene complesso che risultavano blank da quest’ultima colonna. Per ottenere un maggior numero di riscontri, si preferisce la riconciliazione sulla SIRBeC con vincolo di Comune (P131), presupponendo di poter massivamente aggiornare le schede già esistenti su Wikidata con i dati mancanti da OpenRefine. In questo modo si individua il primo gruppo di architetture su Wikidata con già il Codice SIRBeC, sottraendolo tramite filtri alla ricerca del secondo gruppo di elementi, ovvero item esistenti su Wikidata ma senza il SIRBeC, effettuando una nuova riconciliazione sulla denominazione con vincolo comune. Sottratti con filtro i bene componenti, al fine di prendere in considerazione i soli beni individuo e complessi per una maggiore sicurezza nell’operazione di matching massivo nei casi di corrispondenza con valutazione 100, per proseguire poi con il matching manuale per tutte le riconciliazioni con valutazione da 70 in su WHY (riconcilia>faccette>miglior score dei candidati).

Riconciliazioni complesse

Indagine sulla possibilità di riconciliazione complessa e come strumento di lavoro.

Criticità di lavoro condiviso su OpenRefine

Riconciliazione denominazione con vicolo comune, molti senza label da individuare meccanicamente. Emersa problematica di lavoro poiché le anteprime degli elementi su Wikidata sono visibili, e dunque utilizzabili per la riconciliazione manuale solo dall’operatore che ha svolto la relativa riconciliazione nonostante il file su cui si lavora sia lo stesso. È possibile ovviare a ciò ripetendo ciascun operatore la riconciliazione. Si utilizza inoltre Discord per la duplice condivisione dello schermo e per non appesantire la RAM sul web e velocizzando quindi i processi su OpenRefine. Si segnala la presenza dal catalogo lombardo di un doppio identificativo per un’unica architettura, eg.: Palazzo Giovio (doppio id da inserire).

Riconciliazione tipo architettura per la proprietà "istanza di"

Una volta stimata la possibilità di esportazione tramite QuickStatements anche per l’integrazione di record di specifiche colonne in schede Wikidata già esistenti, coinvolgendo sia il primo gruppo di architetture matchate sulla chiave del numero della scheda SIRBeC (2474*), sia il secondo gruppo di elementi riconciliati su chiave denominazione con vincolo comune, si rende possibile l’integrazione nel primo caso volta all’arricchimento con informazioni note dal catalogo regionale, nel secondo l’inserimento dell’identificativoLombardiaBeniCulturali di un edificio che permette il collegamento tra i due dataset. Vd: <https://www.wikidata.org/wiki/Help:QuickStatements#Add_simple_statement>. Inoltre, si valuta il possibile impiego di bot per rendere omogenea la situazione relativa alle unità amministrative soppresse (eg.: Alta Valle Intervi) e le former city. Una breve parentesi va dedicata ad un altro meramente pragmatico del lavoro. Importando il progetto, non vengono mantenute le riconciliazioni manuali, per cui si valuta l’estrazione e la conseguente applicazione delle singole operazioni, che OpenRefine registra progressivamente in uno storico, che possono dunque essere scambiate tra gli operatori condividendo il testo relativo in JSON. Per questo è necessario aggiornare le singole operazioni via via che queste vengono elaborate, per non perderne traccia ed evitare computi numerici differenti e lavoro ridondante su entrambe le postazioni. A seguito di ciò, è stato messo a fuoco come poter recuperare il gruppetto di 269 elementi, appartenenti al primo gruppo di elementi esistenti con già presente il codice SIRBeC, che non sono stati individuati dalla riconciliazione sul tipo building, ma che sappiamo esistere dalla sopracitata lista su Wikipedia. Isolando le colonne di nostro interesse, sia su OpenRefine sia dal file csv estraibile dalla tabella di architetture con SIRBec in Wikidata, sono state poste a confronto su Excel e infine caricare come nuovo progetto su OpenRefine. Preliminarmente alla riconciliazione su NUM_SCHEDA_SIRBEC, si duplica questa stessa colonna al fine di conservare l’identificativo, chiave nel confronto appena esposto, che si perde una volta effettuato il matching. Si individuano 321 elementi rimanenti (70 blank), successivamente riconciliati su struttura architettonica scuola (14); serie di dipinti (1); GLAM (19 tra cui il Museo civico Treviglio BG080-00007), di frequente si individua l’istanza di cascina (intesa come insieme di edifici che quindi posso costituire un insediamento urbano eg.: cascina Gavazzo trovata su building), sebbene in un caso si riscontra un errore poiché si fa rimando all’omonimo comune italiano: Cascina Fontana), portale (quindi elemento architettonico) o ancora foresteria, chiesa non trovata perché istanza di chiesa cattolica (2, di cui una da non considerare, vd. Sotto al 24.02), edicola (1), bene immobile (2 rettificati con istanza di palazzo), albergo (trovato su building) e università (unimi) non riconciliate poiché l’istanza è riferibile piuttosto all’ente che all’edificio e nel catalogo SIRBeC è tipo architettura ospedale, associato a Ca’ Granda, insediamento urbano, quartiere, monumento storico che in catalogo SIRBec è tempio civico). Se ne deduce che la varietà di istanze attribuite agli item, non sempre riconducibili all’elemento base building, sia all’origine di questa frammentazione che tuttavia ha permesso la correzione di errori individuati nel percorso di riconciliazione. Si segnalano due casi di sostituzione idLombardia edificio al posto di toponimo, eliminati Tolcinasco eg. (https://www.wikidata.org/wiki/Special:Contributions/2A02:8109:B540:99E4:D9D6:188B:3AD9:51E5 https://www.wikidata.org/w/index.php?title=Q3992388&action=history). Corretto su Wikidata l’id regionale “0065” incompleto.

Possibili problematiche nella riconciliazione

Focus su possibili problematica nella riconciliazione e conseguente matching sulla tipologia architettonica, in previsione dell’inserimento di questo tipo di record in qualità di istanza di nello schema di Wikidata. Si segnalano la chiesa di Santa Maria d’Ognissanti di Pavia, ritrovata dal bot ma non presente del db lombardo delle architetture quanto in quello delle sculture in qualità di oggetto e opera d’arte ( Q101500286, SIRBeC); la scheda di catalogo della regione Lombardia relativa all’Università di Milano, riferibile all’architettura storia dell’ospedale, è stato corretto associando il codice correttamente a Ca' Granda. Problema omonimia elementi ma istanze diverse (vd. Cascina in riferimento alla località/frazione o architettura) emergerà come problema nell’esportazione in QS, cercare di aggiungere proprietà distinto da in questi casi.

La problematica dell’aumento degli identificativi LombardiaBeniCulturali, ascrivibile al contributo di membri della community e riscontrabile dall’aggiornamento del bot, è risolvibile rilanciando riconciliazioni poco prima dei caricamenti massivi. Inoltre, grazie al template Constraint violation [1], si individuano casi particolari di item da controllare prima del nuovo confronto fra gli item con IdLombardia di un edificio da Wikidata Query Service (2811) e quelli precedentemente individuati tramite la riconciliazione su OpenRefine.

  • Errore caricamento prob da Q102175468 corretto sosoti
  • Cascine anche comuni soppressi eg.: Q3559059 , nel momento in cui si esporta su QS aggiungere proprietà distinto da.
  • Corretto Chiese Sant’Apollinare a Baggio, Milano per presenza dati scorretti.
  • Tra i “single value” violations si segnalano:
    • doppie schede SIRBeC nel seguente caso, da comunicare alla Regione Lombardia per evitare le ripetizioni delle schede di catalogo (situazione analoga a Palazzo Giovio per cui si è deciso di mantenere il doppio id): https://www.wikidata.org/wiki/Q57750432 .
    • Nel caso di Cascina Villarossa, su Wikidata corretta associazione tra beni componenti e complessi, ma errato considerarla comune soppresso: problema voce Wikipedia

Update dati con QS

Accertata la possibilità di aggiornare tramite QS solo alcune proprietà nelle schede su Wikidata, funzionalmente all’espletamento del primo e secondo gruppo individuato nel db SIRBeC (elementi riconciliati sull’idLombardiaBeniCulturali e elementi riconciliati su denominazione con chiave paese), emerge la necessità di effettuare un controllo successivo al caricamento dato che non dovremmo poter sapere se viene aggiunto un valore già esistente o se inserito ex novo. Nel caso della descrizione si spunta la possibilità di sovrascrivere se esiste dallo schema Wikidata, e per altre proprietà, quali designazione del patrimonio culturale, indirizzo e coordinate (sufficienti 6 cifre), si ritiene opportuno inserire come fonte dell’affermazione SIRBeC. Inoltre, si auspica la segnalazione in GitHub dei problemi relativi alla visualizzazione dell’anteprima qualora la riconciliazione non sia effettuata in loco, ostacolando il lavoro in team. Inoltre, tenere a mente problemi che emergono nella creazione dello schema per individuare ulteriori errori.

Violazioni

Violazioni valore unico → stesso id per chiesa e convento(palazzo), una volta eliminate da chiesa (con proprio id che verrà integrato con QS), eg.: del complesso della chiesa di San Cristoforo a Lodi (LO620-00018) riconciliato con palazzo omonimo, non corretto, da ripetere quindi riconciliazione. Matching della tipologia architettura manuale, ai fine dell’inserimento in qualità di istanza di. MEMO: Stalla-fienlile gruppo non riconciliato per distinguerlo da stalla e fienile per aggiungere doppia istanza al momento della creazione schema per WD. Problema riconciliazione CO180-00030 non risolto con matching sulla tipologia building o le altre tipologie specifiche di edifici individuati perché associato con la scheda id cervical cancer (Colonnato di St. Cecilia).

Completamento matching per tipologia di architettura

Casi particolari: PV230-00285 esistendo già la scheda Wikidata con istanza di palazzo, si asseconda il tipo architettura proposta nel SIRBeC che sottolinea come la parte del maschio del castello sia poi stato trasformato in palazzo. Arengario di Brescia BS400-00622 storicamente noto così anche e l’istanza non corrisponde alla definizione intesa nel nome, si propone elemento architettonico essendo arengario presente già nel nome dell’elemento che si verrà a creare. Nel caso della casaforte, casa-torre inserito Casaforte essendo la casa torre una sua sottoclasse, oltre ad essere presente nel nome la “torre”.

Tipo architettura

Per i tipi di architettura Cementificio e Impianto idrovoro si valuta l’istanza di architettura industriale o edificio industriale anche se da preferire il primo poiché in caso di complesso di edifici risulta più idoneo. Nel caso della Serra, usata oggi come biblioteca/asilo, si prevede l’uso di più istanze. Nel caso dell’ala del palazzo vescovile, istanza del palazzo di riferimento o parte di un edificio Q19603939? Pozzo --> non pozzo in strictu sensu perché si tratta di edifici che ospitavano il pozzo vero e proprio?

Operazioni varie

Fixati i blank dei beni complessi di riferimento. Eeffettuata la riconciliazione sull'identificativo SirBeC e contemporaneamente su Comune per ridurre al minimo il margine di errore.

  • Inserimento della doppia istanza nella schema di Wikidata con creazione nuova colonna relativa e tipo architettura modificata.
  • Tutti i dubbi relativi alle violations sono flaggati con stella:
  1. Cascina Vigadore ha più elementi duplicati sul db lombardia (così sembra), esiste poi l'elemento su wikidata con 3 schede sirbec diverse. Per ora ho soltanto tolto il matching a tutti gli elementi RISOLTO;
  2. Castello di Chignolo Po è bene complesso con solamente sè stesso come bene componente, le schede differiscono solamente sulle coordinate, eliminerei il bene componente,anche qua ho tolto il match;
  3. Cascina paderno, altro duplicato su lombardia. due beni complessi con le stesse proprietà, stesso indirizzo cambiano di poco le coordinate (77metri), tolto il match.
  • Pubblicazione su Wikibar e WikiProjects.
  • Trasformazione della tipologia bene componente in bene individuo per tutti i blank nel SIRBeC del bene complesso di riferimento.

Prova di integrazione di proprietà del primo gruppo (item già su Wiki con già identificativo LombardiaBeniCulturali di un edificio) nel cui schema è eliminata la proprietà chiave per evitare ridondanze, con un gruppo di 10 tuple appartenenti a tipologia bene individuo. Situazione di partenza su un totale di 17826 righe:

  • 2477 matched (poi 2454) di cui 820 complessi, 199 componente e 1458 individuo (poi 1435)
  • 15349 none.

Problemi:

  • coordinate
  • Problema etichetta alias non sovrascrivibile se esiste → solo alias

Non risulta possibile inserire le coordinate come valore preferito nel momento in cui esiste già un valore per la stessa proprietà. Si considera l'utilizzo di Strumento OLAF per permettere un lavoro di fino per il confronto di piccoli gruppi. In vista di una futura possibile importazione degli id WikiLovesMnumentsItalia e delle Categorie di Commons, gli elementi già importati/creati non verranno sotratti al db in locale per cancellazione ma saranno flaggati. Inoltre, essendo stata inserita la colonna con una seconda istanza per le architetture di questo primo gruppo, riconciliati e inseriti nello schema. Inizio relazione con Regione con dati alla mano per proposta liberazione dati e segnalazione errori in db di partenza. Cell.recon.match.name Bandierinate violazioni da lasciare indietro all'esportazione del primo gruppo dei beni complessi.

Chignolo po castle, Cascina Paderno (Q63960779), cascina bosco repellini, da creare subito e inserire rapporto con item nuovo da creare del bene complesso di riferimento e le proprietà parte di e consiste di. Duplicati complessi corretti.

Update beni complessi

Importazione del gruppo di item matchati del tipo architettura complesso (n. 801), previa impostazione dello schema in cui si aggiunge l'istanza di "complessi di edifici". Caricamento suddiviso per province: Lodi, Como e le restanti. Se per le architetture componenti è possibile inserire la proprietà "parte di" tramite OR e QS - a seguito della riconciliazione del numero scheda SIRBeC del bene complesso di riferimento, il reciproco inserimento della proprietà "consiste di" per gli item delle architetture complesse. A tal proposito, si propone l'uso di un bot per inserire in Wikidata tale relazione per tutti i beni complessi. Inoltre, a conclusione di tutte le esportazioni integrative, si auspica la creazione di un elenco degli item interessati dal db regionale che presentano coordinate doppie per permetterne il controllo e quindi, conseguenzialmente la modifica per l'indicazione del valore preferito e quello sconsigliato (da pubblicare quindi in Wiki Project Italia).

Per quanto concerne i beni componenti del primo gruppo (n. 190), esistente su Wikidata e con già l'id del SIRBeC, se ne riconciliano 103, lasciando fuori 87 elementi. Alcuni da questo ultimo gruppo, si riferiscono a beni complessi non ancora creati (eg.: 1A060-00061, borgo murato complesso) e saranno quindi messi da parte fino ad allora.

Update dei beni complessi di riferimento ai beni componenti

Su 190 beni componenti, 100 sono stati esportati tramite QS divisi in due gruppi per province. (87, 73) sottraendo i problemi riferibili alle dichiarazioni auto-referenziali che compaiono tra i problemi nello schema di Wikidata. "Sebbene non sia vietato, le dichiarazioni auto-referenziali sono deprecate. Ce n'è qualcuna in Q111364554 (Q111364554).". In questo caso si è inservenuti manualmente poichè i due id si riferiscono a due edifici della stesso complesso e la riconciliazione del bene complesso di riferimento aveva individuato i due edifici, essendo il bene completto creato appositamente privo di id SIRBeC [[2]].

Si nota la creazione di nuove schede di monumenti con codice SIRBeC che afferiscono al db di partenza che sono sono dunque presenti tra le tuple riconciliate in locale nelle fasi iniziali. Per questo motivo si riconciliano i 15488 elementi che non erano stati precedentemente matchati - selezionati a seguito della creazione di una nuova colonna che segnala quali elementi sono già stati oggetto di esportazione in QS - operando la riconciliazione complessa del NUM_SCHERDA_SIRBEC sul tipo building incrociato con comune (P131). Si individuano 237 item, di cui 192 confermati manualmente nel matching.

Problematiche riscontrate nello scambio dei file JSON relative al matching manuale sul SIRBeC del gruppo di elementi non esportati ini Wikidata e per cui è stato trovato un match sul tipo building e comune. Le associazioni e disassociazioni corrette resano solo in locale e quindi più operatori sono limitati poichè pur esportando il progetto e non le singole operazioni, chi non ha effettuato l'ultima riconciliazione non dispone dell'anteprima della pagine wikidata associata.

Violazioni e item doppi e OR

Monitorare anche dopo le esportazionei con QS, le violazioni per la proprietà di nostro interesse (P3503), si rivela utile per effettuare l'unione di elementi doppi su Wikidata. Il caso delle mura spagnole di Pavia potrebbe indicare che Wikidata, alla presenza di due schede con lo stesso dato chiave, seppure una di questa con proprietà dell'identificativo e l'altra solo con l'URL di riferimento, trovi maggior affinità con la scheda creata prima, a discapito della più recente.

Esportazione post seconda riconciliazione

Tra i matched sulla scheda SIRBeC ritroviamo:

  • 63 individui
  • 26 complessi
  • 103 componenti

Esportazione in QS degli individui, poi complessi (aggiungendo istanza di cbeni comlessi in vista della riconciliazione su tale , e poi, stesso ragionamento applicato per i beni componoenti della prima esportazione. Inoltre, ulteriore riconiliazione sul numero della scheda di riferimento del bene complesso sull'istanza di "complesso di edifici" da noi inserita per tutti i beni anche degli gruppo degli 87 tralasciati precedentemente. Segnali manualmente come new i match errati.

Cascina Paderno e Cascina Bosco Repellini: 2 sirbec per stesso bene --> su Wikidata associato solo id del toponimo e tolto quello doppio dell'edificio. In locale su OR tolto il macth, trattati come beni componenti ma non è possibile inserire il num scheda sirbec di riferimento quindi confluisocno nell'ultimo gruppo e MEMO per inserire il rapporto di relazione con cascina paderno esistente.

Errori: affinità n/r in open refine fonte errore nella riconciliazione.

A seguito del caricamento su Wikidata del secondo gruppo di architetture, si ottengono 2816 su 17826 elementi totali.

Architetture lombarde esistenti su Wikidata senza il codice SIRBeC

Si tratta di 311 elementi individuati sulla base della riconciliazione sulla denominazione, con chiave unità amministrativa di riferimento, nel gruppo delle righe dei non matchati sulla scheda SIRBeC e dei non caricati in Wikidata. Anche in questo caso si prevede l'esportazione con proprio schema prima dei beni individui (190), poi dei beni complessi (120) e, in ultimo dei beni componenti (1) previa riconciliazione dei beni complessi di riferimento.

Lo schema di Wikidata è modificato ponendo come chiave la chiave denominazione. Si ricorda che è necessario predisporre sulla colonna SIRBeC alla creazione di una nuova scheda affinchè vengano elaborati eventuali errori dallo stesso OR. In questa fase sono emersi problemi di omonimia per architetture insistenti nella stessa città, vista la riconciliazione chiave sulla denominazione:

  • ex-autorimessa fiat
  • Torre di Soriasco
  • Palazzo Greppi x 2

Quindi, a seguito del controllo umano che è consistito nel togliere il match su OR, gli elementi indidivui sono 186.

Errori durante l'esportazione in QS sistemati, 179 individui totali caricati e segnati come true in colonna relativa.

Beni componenti 1 ma non corretta associazione.

Beni complessi 120 esportati con QS: individuati i seguenti errori relativi:

Controllo riconciliazione su SIRBEC a seguito del quale si aggionerà lo status dei dati. Fixate le violazioni emerse che hanno portato alla luce ulteriori riflessioni sulla riconciliazione su SIRBeC.

Gruppo di architetture non individuate dalla riconciliazione su OR

Dalla pagina delle violazioni, emerge il numero totale delle proprietà di nostro interesse in Wikidata: 3113. Confrontando questo dato con il numero delle architetture riconciliate su SIRBeC in OR, si riscontrano 297 elementi non individuati da OR. Per questo motivo si rilanciano riconciliazioni su altre proprietà che non siano building, emerse durante la sistemazione delle violazioni precedenti, prevedendo una select sul tipo architettura per velocizzare il processo di riconciliazione, quali: monumento (10 elementi), museo, struttura architettonica, GLAM, cascina, chiesa. Inoltre, si valutano altre possibili riconciliazioni complesse per individuare architetture già presenti su Wikidata, prive dell'identificativo SIRBeC, che non sono state individuate dalla riconciliazione su denominazione con chiave comune. Si riscontra bug di OR nel rilevare le modifiche dello schema di Wikidata: si segnala l'accorgimento di star e flag e di selezione tramite queste ultime due caratteristiche per individuare il gruppo e quindi di permettere la lettura delle modiche allo stesso OR.

Confronto su Excel delle liste di SIRBeC riconciliate in locale e su Wikidata

Ripartendo dal presupporto che dalle violazioni risultano 3109 item con la P3505, è stato possibile estrapolare l'elenco dei Q indentifiers tramite quaery SPRQL (3107 --> la differenza è data dalle violazioni). Sottraendo a questo numero, gli elementi che sono stati riconciliati in locale su OF (2728), ci ritroviamo con 381, di cui 88 elementi componenti riconciliati ma non ancora caricati in Wikidata, elementi non caricari perchè non riconciliati. Analogamente si importano i Q creando una nuova colonna con formula "cell.recon.match.id". Grazie all'estrapolazione tab personalizzata, scaricati file .excel, e integrati i dati in OR, è stato possibile confrontare i valori esistenti e isolare quelli che non si trovano in entrambe le liste. in OR nuovo file riconciliati questi elementi senza specificare in tipo e ci troviamo. Operazione di controllo: da query tutti SIRBeC su wikidata, a cui sottratto quelli già caricati su OR, la differenza controllata incrociandola col comune (che siano quindi effettivamente corretti su wikidata). I pochi dati non confrontabili derivano della presenza di più comuni (per le due spoponti) o frazioni di comuni. Ordinare le due liste: Sirbec con denominazione dei 391 (tabella su excel) cf. 15099 ovvero i false su OF (non caricati). In questa fase di riconciliazione ed esportazione in QS su WD dei tre elementi ritrovati all'operazione sopra.

Ricapitolando

Creata tabella con tutti i SIRBeC su Wikidata (3107 elementi) a cui si sottrangono tutti i true (2737 a cui si aggiungono i 6 riconciliati su monumento e i 3 individuati del primo confronto delle liste), dal rimanente gruppo di 370 elementi. A sua volta, da questo si eliminano gli 88 elementi componenti individuati dalla riconciliazione ma non caricati su Wikidata (false) e otteniamo gli elementi che esistono su Wikidata con SIRBeC ma non individuati da precedenti riconciliazioni. Si è dunque giunti ad un csv di 289 elementi che caricheremo su OR.

Unione di due progetti su OR

Seguendo le istruzioni su How to Join Two Projects, si rende possibile l'interazione del db in locale con i dati elaborati esternamente (Excel e MYSQL). Ritrovati 288 elementi, poichè un id SIRBeC è errato (Castello di Trebecco, Castello dei Conti Calepio, corretto manualmente ed esportato). Di seguito di lanciamo riconciliazioni complesse con vincolo comune, solo su questo gruppo ristretto, velocizzando i tempi. Si procede per i gruppi più numerosi per tipologie architettoniche e procedendo prima con i beni individui, poi complessi, lasciando indietro i beni componenti (stellinati temporaneamenti tutti quelli elaborati nella sessione di lavoro, cambiando i caricati in true per la colonna caricati e eliminati dalla colonna mancanti):

  • Cimitero (112 di cui 71 individui - 3 errori, 40 complessi e 1 componente)
  • Oratorio (52 di cui 40 individui, 1 complesso e 11 componente)
  • Chiesa (29 di cui 7 matchate, di cui 2 individui, 2 complessi e 3 componenti)
  • Ponte (<riconciliazione senza chiave del Comune perchè sono due le sponde amminstrative> 21 tutti individui)
  • Scuola (13 tutti individui con istanza di scuola e non di edificio scolastico trovate tutte tranne 1 MN240-00018 Museo Civico da controllare)
  • Ospedale (9 di cui 3 individui e 6 complessi)
  • Museo (7 di cui 5 individui e 2 componente, esportat 1 per ciascuno per sincerarsi che museo e archivio in wd considerino l'edificio e non l'istituzione)
  • Palazzo (6 di cui 2 complessi e 2 individui)
  • Stazione etc...

45 elementi (di cui 9 complessi, 18 componenti e 18 individui) sono stati riconcilianti senza specificare per che tipo con chiave comune P131.

Ne restano tra i mancanti e i false, 5 complessi, 29 componenti e 18 individui per un totale di 52. Esportati i complessi e gli individui dopo controllo che ha permesso di eliminare SIRBeC associata erratamente al cimitero, al posto della chiesa del cimitero. Matchatati 3086 su 3109/7.

Trovare altri elementi del secondo gruppo 2.0

Riconciliazione complessa sulla denominazione con chiave non solo del comune, ma anche delle coordinate. Questa operazione è necessaria per limitare al minimo la creazione di duplicati che riferiscono ad uno stesso bene ma con denominazione differente. Riconciliazione di prova lanciata sul gruppo degli individui non matchati.

[Traduzione in italiano documentazione ufficiale di OR]

Ricerca query delle archietture in Lombardia per individuare monunumenti esistenti senza SIRBeC.

Modifica delle coordinate riducendole a 5 cifre dopo la virgola, e riconciliazione prova su coordinate: risultati inefficace, nulla di diverso dalla riconciliazioni complesse incrociato sul comune.

Controlli a campione

Al fine di evitare doppioni, sono stati effettuati controlli a campione sui beni individui e sono state trovate su Wikidata solo le architetture chiesastiche. Questa categoria architettonica sarà analizzata in maniera avulsa dal resto del dataset. Un secondo campionamento si effettua sulle tipologie architettoniche che più probabilmente possono essere già presenti su Wikidata:

  • musei: problema divisione edificio in cui è ospitata la collezione dall'ente per cui è richiesta analisi ad hoc per ciascun caso;
  • castelli (esportati 28 su 126): Castello Dal Verme 1A050-00218 problematico comprendere se scheda già esistente e quindi lasciato indietro.
  • chiese in ordine alfabetico fino ad Averara segnate le esistenti con bandierina e match immediato. Problema delle chiese parrocchiali importate da ICCD poichè non è chiaro quale chiesa parrocchiale si riferisca.

In questa fase emerge la scorretteza delle coordinate di 3 elementi già esportati per la presenza di un "-" davanti la latitudine e un valore errato di longitudine che scombina la posizione: fixati. Inoltre, nella fase di controllo su Wikidata emergono anche difficoltà nella ricerca degli elementi sulla base delle parole chiave il che potrebbe essere responsabile di una percentuale di elementi esistenti non ritrovati manualmente.

Controllo violazioni

La pagina delle violazioni dei vincoli, oltre a rilevare il numero totale in Wikidata degli elementi con la proprietà dell'identificativo LombardiaBeniCulturali di un edificio (P3503), permette di individuare eventuali discrepanze esistenti relative alla stessa proprietà. A seguito di nuovi caricamenti, sono emersi 15 item tra le "format" violations. A seguito del confronto con la community, è stata modificata l'espressione regolare di riferimento da “[0-9A-Za-z]{3}\d\d-[01]\d{3,4}” a “([0-9A-Z]{2,4}|[a-z0-9]{2}[0-9]{2})[01]-[01]?[0-9]{4}" con la quale non si segnalano più alcune dichiarazioni come violazioni del vincolo di formato.

Esportazione beni individui del secondo gruppo

Escludendo le chiese - ancora in fase di controllo - si esportano tramite QS i beni individui appartenenti al secondo gruppo (6472)

Esportazione beni complessi restanti

  • Castelli: su 41, 10 esistenti su Wikidata, riconciliati ed esportati.
  • Cascine: problema esistenza di omonime cascine con istanza di insediamento urbano che presentano un identificativo di un toponimo o GeoNames che fa riferimento al luogo geografico e non all'architettura. Ergo: esportazione di tutte le cascine intese come architetture (1992).

permalink faccette esportazione mancante beni complessi (tutti eccetto chiesa e cascine):

Esportazione beni componenti restanti

  • Castelli: su 39, 5 esistenti su Wikidata. Riconciliati e in attesa di esportazione. Propedeutico allo schema sarà la riconciliazione dei beni complessi di riferimento da inserire come "parte di"

Una volta riconciliati i beni complessi di riferimento delle architetture false restanti, escluse le chiese, sono stati esportati su base SIRBeC 60 architetture tra matched e new. Analogamente sono stati esportati 35 architetture sulla base della denominazione. Essendo una parte delle chiese state confrontate manualmente, sono state esportate anche le matched e le new.

Architetture lombarde non esistenti su Wikidata

Si tratta dell'ultimo gruppo di architetture da creare già corredata di tutti i dati / proprietà che si vogliono inserire. L'attesa nell'espletare quest'ultimo passaggio, è da attribuirsi al preliminare controllo volto ad evitare la creazione di doppioni. Infatti, a seguito delle riconciliazioni su OR, alcuni elementi, sia con identificativo SIRBeC (per il quale si rimanda al paragrafo specifico), sia esistenti in Wikidata senza identificativo. Quest'ultimo gruppo ha rappresentato un ostacolo ovviato procedendo con riconciliazioni di prova e in definitiva con controllo manuale delle tipologie architettoniche più probabilmente presenti quali le chiese e i castelli.


Possibili migliorie
  • Inserimento della relazione "consiste di" per tutti i beni complessi con almeno un bene componente, sulla base del preesistente rapporto di "parte di".
  • Aggiunta della descrizione in nuova colonna con "value + ' in ' + cells["COMUNE"].value".
  • Aggiunta località: creazione nuova colonna basata sui valori riconciliati su SIRBeC (in tal modo si supplisce alla problematica dei comuni deprecati). Poi, nuova colonna creata con "cells['comuni_da_sirbec'].value==cells['LOCALITA'].value" con valori booleani, da qui si riconciliano i false che sono le località diverse dal nome del comune stesso.

Note per SIRBeC

Spelling errato

Tipologia architettonica

https://www.lombardiabeniculturali.it/architetture/schede/CO250-00679/ si suggerisce campanile al posto di chiesa.

Relazione tra architetture

  • Cascina Ca’ Repellini a Castelnuovo Bocca d’Adda:

https://www.lombardiabeniculturali.it/architetture/schede/LO410-00045/, https://www.lombardiabeniculturali.it/architetture/schede/LO410-00044/ due cascine in teoria componenti di un complesso, ma classificate entrambe come complessi separati;

  • Palazzo e museo Perabò a Laveno-Mombello:

https://www.lombardiabeniculturali.it/architetture/schede/VA280-00039/, https://www.lombardiabeniculturali.it/architetture/schede/3o370-00015/ si potrebbe aggiungere rapporto di relazione tra bene complesso e componente per evidenziare la distinzione tra edificio e museo;

  • Torre centrale di Pieve del Cairo:

https://www.lombardiabeniculturali.it/architetture/schede/1A130-00018/ bene componente parte di sè stesso, probabile componente di https://www.lombardiabeniculturali.it/architetture/schede/1A130-00013/.

  • Errata associazione nel dataset tra

https://www.lombardiabeniculturali.it/architetture/schede/CO260-00388/ e https://www.lombardiabeniculturali.it/architetture/schede/CO260-00385/.

Comuni soppressi

  1. Rovagnate e Perego sostituiti da La Valletta Brianza;
  2. Tremezzo, Mezzegra, Ossuccio e Lenno sostituiti da Tremezzina;
  3. Valverde e Ruino sostituiti da Colli Verdi;
  4. Lanzo d’Intelvi, Pellio Intelvi e Ramponio Verna sostituiti da Alta Valle Intelvi;
  5. Gravedona sostituito da Gravedona ed Uniti;
  6. Casasco d'Intelvi, Castiglione d’Intelvi e San Fedele Intelvi sostituiti da Centro Valle Intelvi;
  7. Camairago e Cavacurta sostituiti da Castelgerundo;
  8. Borgoforte e Virgilio sostituiti da Borgo Virgilio;
  9. Verderio Superiore e Verderio Inferiore sostituiti da Verderio;
  10. Valsecca sostituito da Sant'Omobono Terme;
  11. Pieve di Coriano, Villa Poma e Revere sostituiti da Borgo Mantovano;
  12. Vendrogno sostituito da Bellano;
  13. Gazzo e Bigarello sostituiti da San Giorgio Bigarello.

Comuni errati

amministrativo di Baranzate al posto di Bollate.

Coordinate

Valore errato:

http://www.wikidata.org/entity/Q96694314 https://www.wikidata.org/wiki/Q62066874 https://www.wikidata.org/wiki/Q67772482 https://www.wikidata.org/wiki/Q112137990 https://www.wikidata.org/wiki/Q3904727 https://www.wikidata.org/wiki/Q57335538 http://www.wikidata.org/entity/Q30131792 http://www.wikidata.org/entity/Q25949914 http://www.wikidata.org/entity/Q17651337 http://www.wikidata.org/entity/Q96313210 http://www.wikidata.org/entity/Q3995131 http://www.wikidata.org/entity/Q3890976 http://www.wikidata.org/entity/Q29060328 http://www.wikidata.org/entity/Q56316728 http://www.wikidata.org/entity/Q32112924 http://www.wikidata.org/entity/Q19521404 http://www.wikidata.org/entity/Q65939057 http://www.wikidata.org/entity/Q27989648 http://www.wikidata.org/entity/Q4012260 http://www.wikidata.org/entity/Q29841322 http://www.wikidata.org/entity/Q1516590 http://www.wikidata.org/entity/Q30187530 http://www.wikidata.org/entity/Q17494377 http://www.wikidata.org/entity/Q66314527 http://www.wikidata.org/entity/Q3257902 http://www.wikidata.org/entity/Q96680160 http://www.wikidata.org/entity/Q3889865 http://www.wikidata.org/entity/Q650088 http://www.wikidata.org/entity/Q30045236 http://www.wikidata.org/entity/Q29644899 http://www.wikidata.org/entity/Q16590833 http://www.wikidata.org/entity/Q57567350 http://www.wikidata.org/entity/Q29428063 http://www.wikidata.org/entity/Q29886103 http://www.wikidata.org/entity/Q1034843 http://www.wikidata.org/entity/Q32106757 http://www.wikidata.org/entity/Q549977 http://www.wikidata.org/entity/Q3603953 http://www.wikidata.org/entity/Q29714419 http://www.wikidata.org/entity/Q20008384 http://www.wikidata.org/entity/Q1107168 http://www.wikidata.org/entity/Q29905189 http://www.wikidata.org/entity/Q3981886 http://www.wikidata.org/entity/Q30186610 http://www.wikidata.org/entity/Q3645263 http://www.wikidata.org/entity/Q99522053 http://www.wikidata.org/entity/Q30186138 http://www.wikidata.org/entity/Q19768266 http://www.wikidata.org/entity/Q3950101 http://www.wikidata.org/entity/Q29904970 http://www.wikidata.org/entity/Q3884882 http://www.wikidata.org/entity/Q1403582 http://www.wikidata.org/entity/Q62394430 http://www.wikidata.org/entity/Q29289705 http://www.wikidata.org/entity/Q55843079 http://www.wikidata.org/entity/Q3558757 http://www.wikidata.org/entity/Q46009888 http://www.wikidata.org/entity/Q67512278 http://www.wikidata.org/entity/Q20009124 http://www.wikidata.org/entity/Q30185398 http://www.wikidata.org/entity/Q107615415 http://www.wikidata.org/entity/Q67506722 http://www.wikidata.org/entity/Q26258063 http://www.wikidata.org/entity/Q29898255 http://www.wikidata.org/entity/Q87107217 http://www.wikidata.org/entity/Q4011873 http://www.wikidata.org/entity/Q28670140 http://www.wikidata.org/entity/Q29696864 http://www.wikidata.org/entity/Q28003385 http://www.wikidata.org/entity/Q16621522 http://www.wikidata.org/entity/Q30185269 http://www.wikidata.org/entity/Q27064261 http://www.wikidata.org/entity/Q24937411 http://www.wikidata.org/entity/Q34770134 http://www.wikidata.org/entity/Q34769071 http://www.wikidata.org/entity/Q30144790 http://www.wikidata.org/entity/Q3995322 http://www.wikidata.org/entity/Q3995710 http://www.wikidata.org/entity/Q28000654 http://www.wikidata.org/entity/Q205844 http://www.wikidata.org/entity/Q29714527 http://www.wikidata.org/entity/Q3907952 http://www.wikidata.org/entity/Q29720192

coordinate corrette che non corrispondono a indirizzo

Doppioni

  • Villa Braila a Lodi:

https://www.lombardiabeniculturali.it/architetture/schede/LO480-00010/, https://www.lombardiabeniculturali.it/architetture/schede/1n050-00019/;

  • Palazzo del Podestà a Mantova:

https://www.lombardiabeniculturali.it/architetture/schede/1A060-00441/, https://www.lombardiabeniculturali.it/architetture/schede/MN360-00999/;

  • Cascina Paderno a Massalengo:

https://www.lombardiabeniculturali.it/architetture/schede/LO170-00100/, https://www.lombardiabeniculturali.it/architetture/schede/LO170-00096.

Status dati

17826 su 17826:

  • bene complesso: 4642
  • bene componente: 3550
  • bene individuo: 9634

La prova del nove è la riconciliazione su SIRBeC su chiave P3503.

Sono stati dunque arricchiti e referenziati poco più di 3 mila elementi con già l'apposizione dell'identificativo SIRBeC; a quasi 7 mila architetture esistenti su WD è stato aggiungo l'identificativo in questione e ne sono stati creati ex novo altri 9 mila.

Il Post: agosto 2022

  1. Sono stati aggiornati i comuni soppressi con i comuni attuali, eliminando la fonte dell'affermazione SIRBeC.
  2. Si attende il feed back del confronto con la community per aggiornare la fonte dell'affermazione da SIRBeC a LombardiaBeniCulturali e per aggiungere la data di consultazione della stessa.
  3. Si sta valutando il proseguo per limitare le situazioni in cui vi siano troppi valori per le coordinate, oltre a rettificare quelle errate. Qui è possibile individuare gli item con identificativo LombardiaBeniCulturali di un edificio con coordinate doppie.
  4. Infine, si attende il confronto collettivo per la questione dei beni complessi e beni componenti, i quali sono stati importati come nel dataset di provenienza e possono generare problemi nella futura associazione con altri elementi.

ItWikiCon Verbania 2022

Il progetto è stato presentato il 1° ottobre in occasione dell'ItWikiCon svoltasi a Verbania.

Glossario

Di seguito sono riportati alcuni termini e acronimi ricorrenti, con le relative definizioni:

  • bene complesso: bene costituito da più beni individui (ad esempio, una cascina può essere un bene complesso formato da diversi edifici).
  • bene individuo: bene con una struttura unitaria, che può essere parte di un bene complesso (ma non necessariamente).
  • bene componente: bene che fa parte di un bene complesso.
  • OR: OpenRefine, tool di data wrangling utilizzabile per pulire i dati tabulari e collegarli alle basi di conoscenza, inclusa Wikidata.
  • QS: QuickStatements, tool per la creazione e modifica massiva di elementi su Wikidata.
  • SIRBeC: Sistema Informativo Regionale Beni Culturali di Regione Lombardia