Progetto Dati Lombardia/Relazione
Il contenuto di questa pagina è aggiornato.
Stato valido al 30-06-2022. |
Ciascun paragrafo corrisponde alle sessioni di lavoro, in cui viene riportato il procedimento, corredato dal riflessioni e motivazioni delle problematiche riscontrate di volta in volta, seguite dalle soluzioni individuate e quindi adottate.
Inoltre, sono stati individuati tre macrogruppi di tuple dal db originale ai fini dell'esportazione con QS, a cui si fa riferimento occasionalmente nel corpo del testo:
- Architetture lombarde esistenti su Wikidata con già inserito il codice SIRBeC
- Architetture lombarde esistenti su Wikidata senza il codice SIRBeC
- Architetture lombarde non esistenti su Wikidata
Processo di lavoro
Indicazioni di metodo e primi passi
In un primo momento, si è deciso di procedere condividendo su OneDrive il file csv scaricato dal sito della Regione Lombardia. Infatti, operando modifiche sul dataset di partenza delle Architetture in locale, a fine sessione si esporta il progetto archiviandolo come file, inserendo nel commento delle cronologie delle versioni quali sono le modifiche che interessano tale versione, al fine di agevolare una futura consultazione per gli operatori. Tale scelta trova le sue motivazioni nel fatto che sarebbe controproducente dividere fisicamente in due il file dal punto di vista operativo poiché l’ordine dei beni non rispecchia una divisione per comuni o per tipologia architettonica, rendendo così ridondante il lavoro di esportazione dello schema in Wikidata. Si prevede dunque una modalità di lavoro asincrona, che può divenire sincrona tramite condivisione schermo, sebbene solitamente si operi solamente da una postazione. Si valuta inoltre l’impiego futuro di GitHub per permettere invece la sovrapposizione e il confronto tra versioni differenti riconciliabili.
Avendo stabilito il modus operandi, la fase successiva è stata quella di sistematizzare e correggere gli errori di battitura principali presenti nel dataset di partenza (maiuscole, minuscole, plurali o singolari). Procedendo di colonna in colonna, si sono riscontrati errori tramite l’apertura della finestra dei filtri per testo. Attraverso l’impiego di flag e star, è stato agevolato il processo di ricongiungimento dei campi relativi ad un’unica architettura spezzata su più righe e di eliminazione dei duplicati (tutti > modifica righe > rimuovi righe combacianti), giungendo da 17833 a 17826 righe totali. Sono stati eliminati gli spazi che fungevano da fonte di errore attraverso la funzione trim. Inoltre, attraverso la funzione cluster, è stato possibile operare modifiche su più righe come nel caso della colonna della denominazione dei beni, raggruppando ad esempio le nomenclature delle chiese affini e uniformandoli, valutando di volta in volta se mantenere le differenze o meno, cercando di trovare la soluzione grammaticalmente corretta, oltre che accettata maggiormente dalla community wikimediana. Esempi: Casa di Casa di Gorni → insere la denominazione ufficiale SIRBeC in alias e nominare la scheda Q con la dicitura più scorrevole. Durante questa fase è stata riscontrata la necessità di creare successivamente la scheda Wikidata per la tipologia architettonica del tempietto ossario, qualora non la si associ alla tipologia cappella ossario. Nel caso della Casa di via Pietro fortunato 3-7, si fa riferimento a elementi SIRBeC differenti rispetto all’omonimo al civico 37, per cui si sottolinea la necessità di controllare di volta in volta le unioni per cluster, al fine di ridurre al minimo l’errore nonostante le affinità. Attraverso espressioni di trasformazione sono stati inoltre eliminati dalla denominazione del bene i riferimenti alla tipologia di complessità del bene (eg.: “- complesso”).
Preparazione dei dati e prime riconciliazioni
Sapendo già i dati utili alla futura esportazione in Wikidata, sono state eliminate le colonne relative all’ubicazione non viabilistica, autori, stile/scuola, datazione, uso attuale e uso storico. Le colonne relative alla provincia, nonostante non siano di interesse, serviranno al controllo incrociato al momento della riconciliazione dei comuni. In seguito, è stata operata la trasformazione dei record delle coordinate, eliminando le parentesi tonde per permettere il loro inserimento nel formato previsto dalla proprietà coordinate geografiche di Wikidata. Dopo queste operazioni di pulizia dati, si è avviata la riconciliazione dei comuni. Per poter riconciliare i comuni unreconcliated e none – tramite la finestra dei filtri che è recuperabile ad ogni riapertura del progetto da riconciliazione > faccette > per giudizio - è stato necessario intervenire manualmente per i casi di ex comuni, oggi frazioni di città di recente costituzione (former municipality Q19730508) o municipality seat (Q15303838) - in quest’ultimo caso si auspica l’uso di un bot (eg.: Cavallasca), aggiornando il dato attuale corretto e trasferendo nella colonna località il dato originario. Infatti, la riconciliazione sul tipo commune of Italy (Q747074) non ritrova tutti i comuni o ex comuni.
Architetture lombarde esistenti su Wikidata con già inserito il codice SIRBeC
Riconciliazione chiave
Successivamente è stata avviata la riconciliazione sulla colonna del numero scheda SIRBeC, ritrovando 2499 elementi su Wikidata sui 2768 riscontrabili dall’elenco generato grazie al bot Listeria (vedi qui) e riscontrabile anche su Wikidata Query Service con i seguenti comandi SELECT ?item WHERE { ?item wdt:P3503 ?sub0 }
. Inoltre, sono stati aggiunti i dati manualmente della denominazione del bene complesso e del numero scheda bene complesso che risultavano blank da quest’ultima colonna. Per ottenere un maggior numero di riscontri, si preferisce la riconciliazione sulla SIRBeC con vincolo di Comune (P131), presupponendo di poter massivamente aggiornare le schede già esistenti su Wikidata con i dati mancanti da OpenRefine. In questo modo si individua il primo gruppo di architetture su Wikidata con già il Codice SIRBeC, sottraendolo tramite filtri alla ricerca del secondo gruppo di elementi, ovvero item esistenti su Wikidata ma senza il SIRBeC, effettuando una nuova riconciliazione sulla denominazione con vincolo comune. Sottratti con filtro i bene componenti, al fine di prendere in considerazione i soli beni individuo e complessi per una maggiore sicurezza nell’operazione di matching massivo nei casi di corrispondenza con valutazione 100, per proseguire poi con il matching manuale per tutte le riconciliazioni con valutazione da 70 in su WHY (riconcilia>faccette>miglior score dei candidati).
Riconciliazioni complesse
Indagine sulla possibilità di riconciliazione complessa e come strumento di lavoro.
Criticità di lavoro condiviso su OpenRefine
Riconciliazione denominazione con vicolo comune, molti senza label da individuare meccanicamente. Emersa problematica di lavoro poiché le anteprime degli elementi su Wikidata sono visibili, e dunque utilizzabili per la riconciliazione manuale solo dall’operatore che ha svolto la relativa riconciliazione nonostante il file su cui si lavora sia lo stesso. È possibile ovviare a ciò ripetendo ciascun operatore la riconciliazione. Si utilizza inoltre Discord per la duplice condivisione dello schermo e per non appesantire la RAM sul web e velocizzando quindi i processi su OpenRefine. Si segnala la presenza dal catalogo lombardo di un doppio identificativo per un’unica architettura, eg.: Palazzo Giovio (doppio id da inserire).
Riconciliazione tipo architettura per la proprietà "istanza di"
Una volta stimata la possibilità di esportazione tramite QuickStatements anche per l’integrazione di record di specifiche colonne in schede Wikidata già esistenti, coinvolgendo sia il primo gruppo di architetture matchate sulla chiave del numero della scheda SIRBeC (2474*), sia il secondo gruppo di elementi riconciliati su chiave denominazione con vincolo comune, si rende possibile l’integrazione nel primo caso volta all’arricchimento con informazioni note dal catalogo regionale, nel secondo l’inserimento dell’identificativoLombardiaBeniCulturali di un edificio che permette il collegamento tra i due dataset. Vd: <https://www.wikidata.org/wiki/Help:QuickStatements#Add_simple_statement>. Inoltre, si valuta il possibile impiego di bot per rendere omogenea la situazione relativa alle unità amministrative soppresse (eg.: Alta Valle Intervi) e le former city. Una breve parentesi va dedicata ad un altro meramente pragmatico del lavoro. Importando il progetto, non vengono mantenute le riconciliazioni manuali, per cui si valuta l’estrazione e la conseguente applicazione delle singole operazioni, che OpenRefine registra progressivamente in uno storico, che possono dunque essere scambiate tra gli operatori condividendo il testo relativo in JSON. Per questo è necessario aggiornare le singole operazioni via via che queste vengono elaborate, per non perderne traccia ed evitare computi numerici differenti e lavoro ridondante su entrambe le postazioni. A seguito di ciò, è stato messo a fuoco come poter recuperare il gruppetto di 269 elementi, appartenenti al primo gruppo di elementi esistenti con già presente il codice SIRBeC, che non sono stati individuati dalla riconciliazione sul tipo building, ma che sappiamo esistere dalla sopracitata lista su Wikipedia. Isolando le colonne di nostro interesse, sia su OpenRefine sia dal file csv estraibile dalla tabella di architetture con SIRBec in Wikidata, sono state poste a confronto su Excel e infine caricare come nuovo progetto su OpenRefine. Preliminarmente alla riconciliazione su NUM_SCHEDA_SIRBEC, si duplica questa stessa colonna al fine di conservare l’identificativo, chiave nel confronto appena esposto, che si perde una volta effettuato il matching. Si individuano 321 elementi rimanenti (70 blank), successivamente riconciliati su struttura architettonica scuola (14); serie di dipinti (1); GLAM (19 tra cui il Museo civico Treviglio BG080-00007), di frequente si individua l’istanza di cascina (intesa come insieme di edifici che quindi posso costituire un insediamento urbano eg.: cascina Gavazzo trovata su building), sebbene in un caso si riscontra un errore poiché si fa rimando all’omonimo comune italiano: Cascina Fontana), portale (quindi elemento architettonico) o ancora foresteria, chiesa non trovata perché istanza di chiesa cattolica (2, di cui una da non considerare, vd. Sotto al 24.02), edicola (1), bene immobile (2 rettificati con istanza di palazzo), albergo (trovato su building) e università (unimi) non riconciliate poiché l’istanza è riferibile piuttosto all’ente che all’edificio e nel catalogo SIRBeC è tipo architettura ospedale, associato a Ca’ Granda, insediamento urbano, quartiere, monumento storico che in catalogo SIRBec è tempio civico). Se ne deduce che la varietà di istanze attribuite agli item, non sempre riconducibili all’elemento base building, sia all’origine di questa frammentazione che tuttavia ha permesso la correzione di errori individuati nel percorso di riconciliazione. Si segnalano due casi di sostituzione idLombardia edificio al posto di toponimo, eliminati Tolcinasco eg. (https://www.wikidata.org/wiki/Special:Contributions/2A02:8109:B540:99E4:D9D6:188B:3AD9:51E5 https://www.wikidata.org/w/index.php?title=Q3992388&action=history). Corretto su Wikidata l’id regionale “0065” incompleto.
Possibili problematiche nella riconciliazione
Focus su possibili problematica nella riconciliazione e conseguente matching sulla tipologia architettonica, in previsione dell’inserimento di questo tipo di record in qualità di istanza di nello schema di Wikidata. Si segnalano la chiesa di Santa Maria d’Ognissanti di Pavia, ritrovata dal bot ma non presente del db lombardo delle architetture quanto in quello delle sculture in qualità di oggetto e opera d’arte ( Q101500286, SIRBeC); la scheda di catalogo della regione Lombardia relativa all’Università di Milano, riferibile all’architettura storia dell’ospedale, è stato corretto associando il codice correttamente a Ca' Granda. Problema omonimia elementi ma istanze diverse (vd. Cascina in riferimento alla località/frazione o architettura) emergerà come problema nell’esportazione in QS, cercare di aggiungere proprietà distinto da in questi casi.
La problematica dell’aumento degli identificativi LombardiaBeniCulturali, ascrivibile al contributo di membri della community e riscontrabile dall’aggiornamento del bot, è risolvibile rilanciando riconciliazioni poco prima dei caricamenti massivi. Inoltre, grazie al template Constraint violation [1], si individuano casi particolari di item da controllare prima del nuovo confronto fra gli item con IdLombardia di un edificio da Wikidata Query Service (2811) e quelli precedentemente individuati tramite la riconciliazione su OpenRefine.
- Errore caricamento prob da Q102175468 corretto sosoti
- Cascine anche comuni soppressi eg.: Q3559059 , nel momento in cui si esporta su QS aggiungere proprietà distinto da.
- Corretto Chiese Sant’Apollinare a Baggio, Milano per presenza dati scorretti.
- Tra i “single value” violations si segnalano:
- doppie schede SIRBeC nel seguente caso, da comunicare alla Regione Lombardia per evitare le ripetizioni delle schede di catalogo (situazione analoga a Palazzo Giovio per cui si è deciso di mantenere il doppio id): https://www.wikidata.org/wiki/Q57750432 .
- Nel caso di Cascina Villarossa, su Wikidata corretta associazione tra beni componenti e complessi, ma errato considerarla comune soppresso: problema voce Wikipedia
Update dati con QS
Accertata la possibilità di aggiornare tramite QS solo alcune proprietà nelle schede su Wikidata, funzionalmente all’espletamento del primo e secondo gruppo individuato nel db SIRBeC (elementi riconciliati sull’idLombardiaBeniCulturali e elementi riconciliati su denominazione con chiave paese), emerge la necessità di effettuare un controllo successivo al caricamento dato che non dovremmo poter sapere se viene aggiunto un valore già esistente o se inserito ex novo. Nel caso della descrizione si spunta la possibilità di sovrascrivere se esiste dallo schema Wikidata, e per altre proprietà, quali designazione del patrimonio culturale, indirizzo e coordinate (sufficienti 6 cifre), si ritiene opportuno inserire come fonte dell’affermazione SIRBeC. Inoltre, si auspica la segnalazione in GitHub dei problemi relativi alla visualizzazione dell’anteprima qualora la riconciliazione non sia effettuata in loco, ostacolando il lavoro in team. Inoltre, tenere a mente problemi che emergono nella creazione dello schema per individuare ulteriori errori.
Violazioni
Violazioni valore unico → stesso id per chiesa e convento(palazzo), una volta eliminate da chiesa (con proprio id che verrà integrato con QS), eg.: del complesso della chiesa di San Cristoforo a Lodi (LO620-00018) riconciliato con palazzo omonimo, non corretto, da ripetere quindi riconciliazione. Matching della tipologia architettura manuale, ai fine dell’inserimento in qualità di istanza di. MEMO: Stalla-fienlile gruppo non riconciliato per distinguerlo da stalla e fienile per aggiungere doppia istanza al momento della creazione schema per WD. Problema riconciliazione CO180-00030 non risolto con matching sulla tipologia building o le altre tipologie specifiche di edifici individuati perché associato con la scheda id cervical cancer (Colonnato di St. Cecilia).
Completamento matching per tipologia di architettura
Casi particolari: PV230-00285 esistendo già la scheda Wikidata con istanza di palazzo, si asseconda il tipo architettura proposta nel SIRBeC che sottolinea come la parte del maschio del castello sia poi stato trasformato in palazzo. Arengario di Brescia BS400-00622 storicamente noto così anche e l’istanza non corrisponde alla definizione intesa nel nome, si propone elemento architettonico essendo arengario presente già nel nome dell’elemento che si verrà a creare. Nel caso della casaforte, casa-torre inserito Casaforte essendo la casa torre una sua sottoclasse, oltre ad essere presente nel nome la “torre”.
Tipo architettura
Per i tipi di architettura Cementificio e Impianto idrovoro si valuta l’istanza di architettura industriale o edificio industriale anche se da preferire il primo poiché in caso di complesso di edifici risulta più idoneo. Nel caso della Serra, usata oggi come biblioteca/asilo, si prevede l’uso di più istanze. Nel caso dell’ala del palazzo vescovile, istanza del palazzo di riferimento o parte di un edificio Q19603939? Pozzo --> non pozzo in strictu sensu perché si tratta di edifici che ospitavano il pozzo vero e proprio?
Operazioni varie
Fixati i blank dei beni complessi di riferimento. Eeffettuata la riconciliazione sull'identificativo SirBeC e contemporaneamente su Comune per ridurre al minimo il margine di errore.
- Inserimento della doppia istanza nella schema di Wikidata con creazione nuova colonna relativa e tipo architettura modificata.
- Tutti i dubbi relativi alle violations sono flaggati con stella:
- Cascina Vigadore ha più elementi duplicati sul db lombardia (così sembra), esiste poi l'elemento su wikidata con 3 schede sirbec diverse. Per ora ho soltanto tolto il matching a tutti gli elementi RISOLTO;
- Castello di Chignolo Po è bene complesso con solamente sè stesso come bene componente, le schede differiscono solamente sulle coordinate, eliminerei il bene componente,anche qua ho tolto il match;
- Cascina paderno, altro duplicato su lombardia. due beni complessi con le stesse proprietà, stesso indirizzo cambiano di poco le coordinate (77metri), tolto il match.
- Pubblicazione su Wikibar e WikiProjects.
- Trasformazione della tipologia bene componente in bene individuo per tutti i blank nel SIRBeC del bene complesso di riferimento.
Prova di integrazione di proprietà del primo gruppo (item già su Wiki con già identificativo LombardiaBeniCulturali di un edificio) nel cui schema è eliminata la proprietà chiave per evitare ridondanze, con un gruppo di 10 tuple appartenenti a tipologia bene individuo. Situazione di partenza su un totale di 17826 righe:
- 2477 matched (poi 2454) di cui 820 complessi, 199 componente e 1458 individuo (poi 1435)
- 15349 none.
Problemi:
- coordinate
- Problema etichetta alias non sovrascrivibile se esiste → solo alias
Non risulta possibile inserire le coordinate come valore preferito nel momento in cui esiste già un valore per la stessa proprietà. Si considera l'utilizzo di Strumento OLAF per permettere un lavoro di fino per il confronto di piccoli gruppi. In vista di una futura possibile importazione degli id WikiLovesMnumentsItalia e delle Categorie di Commons, gli elementi già importati/creati non verranno sotratti al db in locale per cancellazione ma saranno flaggati. Inoltre, essendo stata inserita la colonna con una seconda istanza per le architetture di questo primo gruppo, riconciliati e inseriti nello schema. Inizio relazione con Regione con dati alla mano per proposta liberazione dati e segnalazione errori in db di partenza. Cell.recon.match.name Bandierinate violazioni da lasciare indietro all'esportazione del primo gruppo dei beni complessi.
Chignolo po castle, Cascina Paderno (Q63960779), cascina bosco repellini, da creare subito e inserire rapporto con item nuovo da creare del bene complesso di riferimento e le proprietà parte di e consiste di. Duplicati complessi corretti.
Update beni complessi
Importazione del gruppo di item matchati del tipo architettura complesso (n. 801), previa impostazione dello schema in cui si aggiunge l'istanza di "complessi di edifici". Caricamento suddiviso per province: Lodi, Como e le restanti. Se per le architetture componenti è possibile inserire la proprietà "parte di" tramite OR e QS - a seguito della riconciliazione del numero scheda SIRBeC del bene complesso di riferimento, il reciproco inserimento della proprietà "consiste di" per gli item delle architetture complesse. A tal proposito, si propone l'uso di un bot per inserire in Wikidata tale relazione per tutti i beni complessi. Inoltre, a conclusione di tutte le esportazioni integrative, si auspica la creazione di un elenco degli item interessati dal db regionale che presentano coordinate doppie per permetterne il controllo e quindi, conseguenzialmente la modifica per l'indicazione del valore preferito e quello sconsigliato (da pubblicare quindi in Wiki Project Italia).
Per quanto concerne i beni componenti del primo gruppo (n. 190), esistente su Wikidata e con già l'id del SIRBeC, se ne riconciliano 103, lasciando fuori 87 elementi. Alcuni da questo ultimo gruppo, si riferiscono a beni complessi non ancora creati (eg.: 1A060-00061, borgo murato complesso) e saranno quindi messi da parte fino ad allora.
Update dei beni complessi di riferimento ai beni componenti
Su 190 beni componenti, 100 sono stati esportati tramite QS divisi in due gruppi per province. (87, 73) sottraendo i problemi riferibili alle dichiarazioni auto-referenziali che compaiono tra i problemi nello schema di Wikidata. "Sebbene non sia vietato, le dichiarazioni auto-referenziali sono deprecate. Ce n'è qualcuna in Q111364554 (Q111364554).". In questo caso si è inservenuti manualmente poichè i due id si riferiscono a due edifici della stesso complesso e la riconciliazione del bene complesso di riferimento aveva individuato i due edifici, essendo il bene completto creato appositamente privo di id SIRBeC [[2]].
Si nota la creazione di nuove schede di monumenti con codice SIRBeC che afferiscono al db di partenza che sono sono dunque presenti tra le tuple riconciliate in locale nelle fasi iniziali. Per questo motivo si riconciliano i 15488 elementi che non erano stati precedentemente matchati - selezionati a seguito della creazione di una nuova colonna che segnala quali elementi sono già stati oggetto di esportazione in QS - operando la riconciliazione complessa del NUM_SCHERDA_SIRBEC sul tipo building incrociato con comune (P131). Si individuano 237 item, di cui 192 confermati manualmente nel matching.
Problematiche riscontrate nello scambio dei file JSON relative al matching manuale sul SIRBeC del gruppo di elementi non esportati ini Wikidata e per cui è stato trovato un match sul tipo building e comune. Le associazioni e disassociazioni corrette resano solo in locale e quindi più operatori sono limitati poichè pur esportando il progetto e non le singole operazioni, chi non ha effettuato l'ultima riconciliazione non dispone dell'anteprima della pagine wikidata associata.
Violazioni e item doppi e OR
Monitorare anche dopo le esportazionei con QS, le violazioni per la proprietà di nostro interesse (P3503), si rivela utile per effettuare l'unione di elementi doppi su Wikidata. Il caso delle mura spagnole di Pavia potrebbe indicare che Wikidata, alla presenza di due schede con lo stesso dato chiave, seppure una di questa con proprietà dell'identificativo e l'altra solo con l'URL di riferimento, trovi maggior affinità con la scheda creata prima, a discapito della più recente.
Esportazione post seconda riconciliazione
Tra i matched sulla scheda SIRBeC ritroviamo:
- 63 individui
- 26 complessi
- 103 componenti
Esportazione in QS degli individui, poi complessi (aggiungendo istanza di cbeni comlessi in vista della riconciliazione su tale , e poi, stesso ragionamento applicato per i beni componoenti della prima esportazione. Inoltre, ulteriore riconiliazione sul numero della scheda di riferimento del bene complesso sull'istanza di "complesso di edifici" da noi inserita per tutti i beni anche degli gruppo degli 87 tralasciati precedentemente. Segnali manualmente come new i match errati.
Cascina Paderno e Cascina Bosco Repellini: 2 sirbec per stesso bene --> su Wikidata associato solo id del toponimo e tolto quello doppio dell'edificio. In locale su OR tolto il macth, trattati come beni componenti ma non è possibile inserire il num scheda sirbec di riferimento quindi confluisocno nell'ultimo gruppo e MEMO per inserire il rapporto di relazione con cascina paderno esistente.
Errori: affinità n/r in open refine fonte errore nella riconciliazione.
A seguito del caricamento su Wikidata del secondo gruppo di architetture, si ottengono 2816 su 17826 elementi totali.
Architetture lombarde esistenti su Wikidata senza il codice SIRBeC
Si tratta di 311 elementi individuati sulla base della riconciliazione sulla denominazione, con chiave unità amministrativa di riferimento, nel gruppo delle righe dei non matchati sulla scheda SIRBeC e dei non caricati in Wikidata. Anche in questo caso si prevede l'esportazione con proprio schema prima dei beni individui (190), poi dei beni complessi (120) e, in ultimo dei beni componenti (1) previa riconciliazione dei beni complessi di riferimento.
Lo schema di Wikidata è modificato ponendo come chiave la chiave denominazione. Si ricorda che è necessario predisporre sulla colonna SIRBeC alla creazione di una nuova scheda affinchè vengano elaborati eventuali errori dallo stesso OR. In questa fase sono emersi problemi di omonimia per architetture insistenti nella stessa città, vista la riconciliazione chiave sulla denominazione:
- ex-autorimessa fiat
- Torre di Soriasco
- Palazzo Greppi x 2
Quindi, a seguito del controllo umano che è consistito nel togliere il match su OR, gli elementi indidivui sono 186.
Errori durante l'esportazione in QS sistemati, 179 individui totali caricati e segnati come true in colonna relativa.
Beni componenti 1 ma non corretta associazione.
Beni complessi 120 esportati con QS: individuati i seguenti errori relativi:
- Palazzo del Podestà di Mantova: mantenuti entrambi i SERBeC poichè entrambi corretti, quindi problema da porre a SIRBeC
Controllo riconciliazione su SIRBEC a seguito del quale si aggionerà lo status dei dati. Fixate le violazioni emerse che hanno portato alla luce ulteriori riflessioni sulla riconciliazione su SIRBeC.
Gruppo di architetture non individuate dalla riconciliazione su OR
Dalla pagina delle violazioni, emerge il numero totale delle proprietà di nostro interesse in Wikidata: 3113. Confrontando questo dato con il numero delle architetture riconciliate su SIRBeC in OR, si riscontrano 297 elementi non individuati da OR. Per questo motivo si rilanciano riconciliazioni su altre proprietà che non siano building, emerse durante la sistemazione delle violazioni precedenti, prevedendo una select sul tipo architettura per velocizzare il processo di riconciliazione, quali: monumento (10 elementi), museo, struttura architettonica, GLAM, cascina, chiesa. Inoltre, si valutano altre possibili riconciliazioni complesse per individuare architetture già presenti su Wikidata, prive dell'identificativo SIRBeC, che non sono state individuate dalla riconciliazione su denominazione con chiave comune. Si riscontra bug di OR nel rilevare le modifiche dello schema di Wikidata: si segnala l'accorgimento di star e flag e di selezione tramite queste ultime due caratteristiche per individuare il gruppo e quindi di permettere la lettura delle modiche allo stesso OR.
Confronto su Excel delle liste di SIRBeC riconciliate in locale e su Wikidata
Ripartendo dal presupporto che dalle violazioni risultano 3109 item con la P3505, è stato possibile estrapolare l'elenco dei Q indentifiers tramite quaery SPRQL (3107 --> la differenza è data dalle violazioni). Sottraendo a questo numero, gli elementi che sono stati riconciliati in locale su OF (2728), ci ritroviamo con 381, di cui 88 elementi componenti riconciliati ma non ancora caricati in Wikidata, elementi non caricari perchè non riconciliati. Analogamente si importano i Q creando una nuova colonna con formula "cell.recon.match.id". Grazie all'estrapolazione tab personalizzata, scaricati file .excel, e integrati i dati in OR, è stato possibile confrontare i valori esistenti e isolare quelli che non si trovano in entrambe le liste. in OR nuovo file riconciliati questi elementi senza specificare in tipo e ci troviamo. Operazione di controllo: da query tutti SIRBeC su wikidata, a cui sottratto quelli già caricati su OR, la differenza controllata incrociandola col comune (che siano quindi effettivamente corretti su wikidata). I pochi dati non confrontabili derivano della presenza di più comuni (per le due spoponti) o frazioni di comuni. Ordinare le due liste: Sirbec con denominazione dei 391 (tabella su excel) cf. 15099 ovvero i false su OF (non caricati). In questa fase di riconciliazione ed esportazione in QS su WD dei tre elementi ritrovati all'operazione sopra.
Ricapitolando
Creata tabella con tutti i SIRBeC su Wikidata (3107 elementi) a cui si sottrangono tutti i true (2737 a cui si aggiungono i 6 riconciliati su monumento e i 3 individuati del primo confronto delle liste), dal rimanente gruppo di 370 elementi. A sua volta, da questo si eliminano gli 88 elementi componenti individuati dalla riconciliazione ma non caricati su Wikidata (false) e otteniamo gli elementi che esistono su Wikidata con SIRBeC ma non individuati da precedenti riconciliazioni. Si è dunque giunti ad un csv di 289 elementi che caricheremo su OR.
Unione di due progetti su OR
Seguendo le istruzioni su How to Join Two Projects, si rende possibile l'interazione del db in locale con i dati elaborati esternamente (Excel e MYSQL). Ritrovati 288 elementi, poichè un id SIRBeC è errato (Castello di Trebecco, Castello dei Conti Calepio, corretto manualmente ed esportato). Di seguito di lanciamo riconciliazioni complesse con vincolo comune, solo su questo gruppo ristretto, velocizzando i tempi. Si procede per i gruppi più numerosi per tipologie architettoniche e procedendo prima con i beni individui, poi complessi, lasciando indietro i beni componenti (stellinati temporaneamenti tutti quelli elaborati nella sessione di lavoro, cambiando i caricati in true per la colonna caricati e eliminati dalla colonna mancanti):
- Cimitero (112 di cui 71 individui - 3 errori, 40 complessi e 1 componente)
- Oratorio (52 di cui 40 individui, 1 complesso e 11 componente)
- Chiesa (29 di cui 7 matchate, di cui 2 individui, 2 complessi e 3 componenti)
- Ponte (<riconciliazione senza chiave del Comune perchè sono due le sponde amminstrative> 21 tutti individui)
- Scuola (13 tutti individui con istanza di scuola e non di edificio scolastico trovate tutte tranne 1 MN240-00018 Museo Civico da controllare)
- Ospedale (9 di cui 3 individui e 6 complessi)
- Museo (7 di cui 5 individui e 2 componente, esportat 1 per ciascuno per sincerarsi che museo e archivio in wd considerino l'edificio e non l'istituzione)
- Palazzo (6 di cui 2 complessi e 2 individui)
- Stazione etc...
45 elementi (di cui 9 complessi, 18 componenti e 18 individui) sono stati riconcilianti senza specificare per che tipo con chiave comune P131.
Ne restano tra i mancanti e i false, 5 complessi, 29 componenti e 18 individui per un totale di 52. Esportati i complessi e gli individui dopo controllo che ha permesso di eliminare SIRBeC associata erratamente al cimitero, al posto della chiesa del cimitero. Matchatati 3086 su 3109/7.
Trovare altri elementi del secondo gruppo 2.0
Riconciliazione complessa sulla denominazione con chiave non solo del comune, ma anche delle coordinate. Questa operazione è necessaria per limitare al minimo la creazione di duplicati che riferiscono ad uno stesso bene ma con denominazione differente. Riconciliazione di prova lanciata sul gruppo degli individui non matchati.
[Traduzione in italiano documentazione ufficiale di OR]
Ricerca query delle archietture in Lombardia per individuare monunumenti esistenti senza SIRBeC.
Modifica delle coordinate riducendole a 5 cifre dopo la virgola, e riconciliazione prova su coordinate: risultati inefficace, nulla di diverso dalla riconciliazioni complesse incrociato sul comune.
Controlli a campione
Al fine di evitare doppioni, sono stati effettuati controlli a campione sui beni individui e sono state trovate su Wikidata solo le architetture chiesastiche. Questa categoria architettonica sarà analizzata in maniera avulsa dal resto del dataset. Un secondo campionamento si effettua sulle tipologie architettoniche che più probabilmente possono essere già presenti su Wikidata:
- musei: problema divisione edificio in cui è ospitata la collezione dall'ente per cui è richiesta analisi ad hoc per ciascun caso;
- castelli (esportati 28 su 126): Castello Dal Verme 1A050-00218 problematico comprendere se scheda già esistente e quindi lasciato indietro.
- chiese in ordine alfabetico fino ad Averara segnate le esistenti con bandierina e match immediato. Problema delle chiese parrocchiali importate da ICCD poichè non è chiaro quale chiesa parrocchiale si riferisca.
In questa fase emerge la scorretteza delle coordinate di 3 elementi già esportati per la presenza di un "-" davanti la latitudine e un valore errato di longitudine che scombina la posizione: fixati. Inoltre, nella fase di controllo su Wikidata emergono anche difficoltà nella ricerca degli elementi sulla base delle parole chiave il che potrebbe essere responsabile di una percentuale di elementi esistenti non ritrovati manualmente.
Controllo violazioni
La pagina delle violazioni dei vincoli, oltre a rilevare il numero totale in Wikidata degli elementi con la proprietà dell'identificativo LombardiaBeniCulturali di un edificio (P3503), permette di individuare eventuali discrepanze esistenti relative alla stessa proprietà. A seguito di nuovi caricamenti, sono emersi 15 item tra le "format" violations. A seguito del confronto con la community, è stata modificata l'espressione regolare di riferimento da “[0-9A-Za-z]{3}\d\d-[01]\d{3,4}” a “([0-9A-Z]{2,4}|[a-z0-9]{2}[0-9]{2})[01]-[01]?[0-9]{4}" con la quale non si segnalano più alcune dichiarazioni come violazioni del vincolo di formato.
Esportazione beni individui del secondo gruppo
Escludendo le chiese - ancora in fase di controllo - si esportano tramite QS i beni individui appartenenti al secondo gruppo (6472)
Esportazione beni complessi restanti
- Castelli: su 41, 10 esistenti su Wikidata, riconciliati ed esportati.
- Cascine: problema esistenza di omonime cascine con istanza di insediamento urbano che presentano un identificativo di un toponimo o GeoNames che fa riferimento al luogo geografico e non all'architettura. Ergo: esportazione di tutte le cascine intese come architetture (1992).
permalink faccette esportazione mancante beni complessi (tutti eccetto chiesa e cascine):
Esportazione beni componenti restanti
- Castelli: su 39, 5 esistenti su Wikidata. Riconciliati e in attesa di esportazione. Propedeutico allo schema sarà la riconciliazione dei beni complessi di riferimento da inserire come "parte di"
Una volta riconciliati i beni complessi di riferimento delle architetture false restanti, escluse le chiese, sono stati esportati su base SIRBeC 60 architetture tra matched e new. Analogamente sono stati esportati 35 architetture sulla base della denominazione. Essendo una parte delle chiese state confrontate manualmente, sono state esportate anche le matched e le new.
Architetture lombarde non esistenti su Wikidata
Si tratta dell'ultimo gruppo di architetture da creare già corredata di tutti i dati / proprietà che si vogliono inserire. L'attesa nell'espletare quest'ultimo passaggio, è da attribuirsi al preliminare controllo volto ad evitare la creazione di doppioni. Infatti, a seguito delle riconciliazioni su OR, alcuni elementi, sia con identificativo SIRBeC (per il quale si rimanda al paragrafo specifico), sia esistenti in Wikidata senza identificativo. Quest'ultimo gruppo ha rappresentato un ostacolo ovviato procedendo con riconciliazioni di prova e in definitiva con controllo manuale delle tipologie architettoniche più probabilmente presenti quali le chiese e i castelli.
Possibili migliorie
- Inserimento della relazione "consiste di" per tutti i beni complessi con almeno un bene componente, sulla base del preesistente rapporto di "parte di".
- Aggiunta della descrizione in nuova colonna con "value + ' in ' + cells["COMUNE"].value".
- Aggiunta località: creazione nuova colonna basata sui valori riconciliati su SIRBeC (in tal modo si supplisce alla problematica dei comuni deprecati). Poi, nuova colonna creata con "cells['comuni_da_sirbec'].value==cells['LOCALITA'].value" con valori booleani, da qui si riconciliano i false che sono le località diverse dal nome del comune stesso.
Note per SIRBeC
- Spelling errato: Santuario e chiesa della Madonna del Buon Consiglio (LC120-00713), (LC120-00712) e Pianborno al posto di Piamborno, Villa Pizzone.
- Si suggerisce come tipologia specifica del campanile della Chiesa dei SS Vito e Modesto a Lipomo (CO) campanile al posto di chiesa.
Relazione tra architetture
- Cascina Paderno: due beni complessi separati dalla strada ma con la stessa denominazione, importati come componenti di un unico complesso;
- Cascina Ca' Repellini: due cascine in teoria componenti di un complesso, ma classificate entrambe come complessi differenti.
- Palazzo e museo Perabò si può aggiungere rapporto di complesso e componente per rendere chiara la distinzione tra edificio ed ente museale;
- https://www.lombardiabeniculturali.it/architetture/schede/1A070-00051/ e https://www.lombardiabeniculturali.it/architetture/schede/RL560-00061/ senza relazione di rapporto perchè castello del Ganaderio inteso come individuo e non come parte del complesso del castello di Ginami;
- Aggiunto manualmente su Wikidata il rapporto di relazione del complesso della chiesa di San Cristoforo con la chiesa sconsacrata che non sembra avere riscontri sul SIRBeC;
- Errata associazione tra la chiesa di S. Gaetano a Brenna e la villa neogotica di Novedrate;
- Ridondanza della torre centrale di Pieve del Cairo: bene componente parte di sè stesso, esportato senza la relazione con il bene complesso di riferimento. Probabilmente componente del castello.
Comuni soppressi
- Rovagnate sostituito da La Valletta Brianza;
- Ossuccio e Lenno sostituiti da Tremezzina;
- Cornate d'Adda sostituito da Paderno d'Adda;
- Ruigo sostituito da Colli Verdi;
- Ramponio Verna sostituito da Alta Valle Intelvi;
- Gravedona sostituito da Gravedona ed Uniti;
- Casasco d'Intelvi sostituito da Centro Valle Intelvi;
- Lanzo d'Intelvi sostituito da Alta Valle Intevi:
- Camairago e Cavacurta sostituiti da Castelgerundo;
- Virgilio sostituito da Borgo Virgilio;
- Valsecca sostituito da Sant'Omobono Terme;
- Verderio Superiore sostituito da Verderio;
- Villa Poma sostituito da Borgo Mantovano:
Comuni errati
- Chiesa di Nostra Signora della Misericordia cade nel confine amministrativo di Baranzate al posto di Bollate.
Coordinate
- valore errato:
- Palazzo Guilizzoni Perabò
- valore errato in Chiesa di San Zaccaria
- valore errato nella Villa a Varese
- valore errato in Castello Giovannelli
- valore arrato nel castello di Macconago
- coordinate corrette che non corrispondono a indirizzo in:
Doppioni
- Villa Braila con due SIRBeC: LO480-00010, 1n050-00019;
- Palazzo del Podestà di Mantova: mantenuti entrambi i SIRBeC.
Immagini
- Immagine associata alla Chiesa della Ghisiola corrispondente alla chiesa della Visitazione della Beata Vergine Maria. La prima chiesa è stata associata tramite altra denominazione e coordinate alla Chiesa di Santa Maria della Rose a Castiglione delle Stiviere (MN);
- Castello di Montecchio e Chiesa della Madonna Immacolata immagine in scheda ma non in WD, mutuo scambio?
Denominazione altra
- https://www.lombardiabeniculturali.it/architetture/schede/1r070-00040/ e chiesa da chiarire rapporto di relazione bene complesso e componente. L'inserimento di una colonna / campo dedicato alla "denominazione altra" permetterebbe di individuare più efficacemente eventuali doppioni esistenti in Wikidata con il nome alternativo.
Status dati
17826 su 17826:
- bene complesso: 4642
- bene componente: 3550
- bene individuo: 9634
La prova del nove è la riconciliazione su SIRBeC su chiave P3503.
Sono stati dunque arricchiti e referenziati poco più di 3 mila elementi con già l'apposizione dell'identificativo SIRBeC; a quasi 7 mila architetture esistenti su WD è stato aggiungo l'identificativo in questione e ne sono stati creati ex novo altri 9 mila.
Glossario
Di seguito sono riportati alcuni termini e acronimi ricorrenti, con le relative definizioni:
- bene complesso: bene costituito da più beni individui (ad esempio, una cascina può essere un bene complesso formato da diversi edifici).
- bene individuo: bene con una struttura unitaria, che può essere parte di un bene complesso (ma non necessariamente).
- bene componente: bene che fa parte di un bene complesso.
- OR: OpenRefine, tool di data wrangling utilizzabile per pulire i dati tabulari e collegarli alle basi di conoscenza, inclusa Wikidata.
- QS: QuickStatements, tool per la creazione e modifica massiva di elementi su Wikidata.
- SIRBeC: Sistema Informativo Regionale Beni Culturali di Regione Lombardia