GLAM/Musei/Museo egizio di Torino/Relazione

Da Wikimedia Italia.
Jump to navigation Jump to search
Aggiornato! Il contenuto di questa pagina è aggiornato.

Stato valido al 6-05-2023.

Premesse

Il progetto si pone come obiettivo l'upload delle immagini e dei dati dei reperti del Museo Egizio di Torino in Wikimedia Commons e Wikidata. Per agire in maniera massiva, si prevede l'utilizzo di OpenRefine 3.7 e/o di Pattypan. I lavori saranno divisi in due grandi fasi. Dopo aver preparato i dati del dataset con le informazioni relative agli oggetti museali, si importeranno in Wikidata creando un item per ciascuno di questi. Successivamente, si importeranno le immagini collegandole ai relativi item sfruttando i dati strutturati. Ci si prefigge di importare la quasi totalità di dati forniti dall'istituzione museale e di mantenere il formato delle immagini in alta qualità.

Upload in Wikidata

Dopo aver caricato il db in OR, i dati sono stati elaborati per poter essere riconciliati come valori delle proprietà di WD. Nei casi in cui i dati sono riportati come incerti, ingnoti o accompagnati da un punto interrogativo si preferisce eliminare il record.

Numero di inventario | identificativo Museo Egizio di Torino (P11414) e numero di inventario (P217)

A seguito dei primi tentativi di riconciliazione su OR dei 12 item esistenti su WD con già associato l'id (che sono stati stellinati), ovvero il numero di inventario attribuito, è emersa la difficoltà di matching, motivo per cui, oltre all'analisi dell'identificativo stesso, ci si orienta verso l'adozione integrale del codice alfanumerico identificativo dell'oggetto e non più il semplice numero.

Si aggiorna l'espressione regolare per il formato, al fine di includere tutti gli identificativi degli oggetti museali, che, dopo la lettera puntata P o C o S, prevedono dai 4 ai 5 numeri, in alcuni casi seguiti da un ulteriore punto che introduce lettere minuscole o numeri anche separati dal trattino ('-'), da [1-9]\d{1,3} a ([A-Z]{1,4}|[a-z1-9]{1,3}).

Aggiornamento ulteriore dell'espressione regolare con [A-Z]{1,4}\.\s\d{1,5}

Si notano inoltre anomalie nella cui maggioranza dei casi il link è disabilitato:

  • Doppione: C. 2230.1 ovvero dati relativi a questa mummia sono stati duplicati su due righe, comportando una riduzione degli elementi del db da 2383 a 2382.
  • DN: 25 elementi segnalati come "numero doppio" nell'URL e nelle schede museali
  • Frammenti papiracei con due o tre (fino a sei) identificativi: futura eliminazione del vincolo del valore singolo?
  • Dubbio: 28 elementi nel cui identificativo è inserita la parola dubbio
  • Identificativo aggiornato: 19 elementi individuabili dalla presenza o di ex o di = che mette in relazione l'id originario con quello nuovo
  • C. 2737 (740)
  • v.n.: 4 elementi seguiti da un numero a tre cifre dopo il v.n. a seguito dell'identificativo
  • Sic: 1 elemento di cui non si ritrova riscontro nel sito web del ME
  • Cod: 1 elemento
  • CGT 5401
  • G.5
  • M.11, M.12
  • S. 1757.4/5 Gebelein X/XI
Vincoli di proprietà

Si eliminano i seguenti vincoli o elementi che richiedono il vincolo di asserzione:

  • vincolo della lingua dell'etichetta: il bot che attiva il controllo delle constraints sembra essere bloccato da questa proprietà, si prova prima deprecando il suo rank e, non avendo avuto effetti, eliminando il vincolo
  • genere: si tratta di reperti archeologici, non di opere letterarie, musicali, teatrali o cinematografiche
  • creatore: ignoto per cui non ci sarebbero valori corrispondenti
  • raffigura: si applica solo per alcune tipologie di oggetti museali, escludendo papiri, tessuti, utensili et similia
  • titolo: non pertinente per la maggior parte dei reperti, eccetto per il quadro di cui tuttavia non è riportato un titolo dell'opera
N.B.

La discrepanza tra gli id riportati nel db e quelli invece adoperati effettivamente negli URL, che a livello teorico dovrebbero essere uguali e quindi descritti dalla stessa espressione regolare, ha avuto come conseguenza, al cliccare dell'identificativo, il rimando ad un link corrotto. Inoltre, il numero di inventario nelle pagine web sono la crasi dagli id dal db e dall'URL.

Un esempio della triplice versione degli id è il seguente:

La testa di una criosfinge nel db è C. 0846, nell'URL https://collezioni.museoegizio.it/it-IT/material/Cat_846/ e nella pagina web Cat. 846.

Per includere dunque la triplice versione dell'id si propone di modificare l'espressione regolare per il formato in [A-Za-z]{1,4}[(\.)?(\_)]?[(\s)?(\_)]?\d{1,5}(\.[a-z1-9]{1,3})?([\.\-][a-z1-9]{1,3})?([\.\-][a-z1-9]{1,3})?

La stringa del valore dell'id non funziona nonostante l'aggiornamento dell'espressione regolare del formato per cui si deduce che debba esserci esatta corrispondenza tra il valore della proprietà dell'identificativo con l'id presente all'interno dell'URL per avere la restituzione di un link funzionante, o, nel caso degli id con almeno tre numeri, il collegamento funziona anche senza la parte alfabetica iniziale dell'id (esempio).

Infine, alla domanda quale versione dell'id mantenere come identificativo si opta per l'id fornito dal ME per il valore della proprietà numero di inventario (P217) mentre come valore della proprietà dell'identificativo Museo Egizio di Torino (P11414) si inserisce l'esatto calco dell'id riportato negli URL così da permettere il link diretto con la pagina descrittiva del ME dei singoli oggetti. Quest'ultimo si estrae tramite espressione in una nuova colonna basata sui link, dopo averli opportunamente normalizzarti, vedi sotto.

Purtroppo i 25 item che riportano nel proprio id la parola "dubbio", tradotta nell'URL come "__?/", riportano ad un link corrotto nel momento in cui si clicca sul valore della proprietà P11414. Tuttavia gli URL in cui questi sono descritti sono validi.

Categoria | istanza di (P31)

La categoria dell'oggetto corrisponde alla proprietà istanza di. Per 314 tipi di categorie, si effettua la riconciliazione sul tipo opera d'arte. Si procede matchando manualmente l'istanza più idonea all'oggetto. Si semplificano le categorie che riportano la descrizione al tipo di oggetto (e.g.: Statua di Ini diventa statua).

Descrizione | etichette

Si adoperano le descrizioni come etichette, importandole sia in italiano sia in inglese.

Materiale e tecnica | materiale usato (P186), colore (P462), metodo di fabbricazione (P2079)

Al fine di rappresentare al meglio i manufatti polimaterici, sono state generate più colonne con separatore , dopo aver eliminato "Pietra", "Metallo", "Tessuto" quando disponibile il sottotipo più specifico e aver normalizzato i separatori che vedevano l'utilizzo di / per distinguere la macro-tipologia dalla micro-tipologia del materiale, in alcuni casi adottata però per separare materiali di diversa natura. Si nota l'impiego del punto e virgola, oltre che dello /, per separare materiali di sezioni diversi dello stesso manufatto o per separare i materiali dalla tecnica materiale di esecuzione. Si pensa quindi ad nuova colonna dedicata alla tecnica come metodo di fabbricazione (P2079) e una per il colore (P462) per i materiali come nel caso dell'argilla e della faience e in alcuni casi anche il paese d'origine (P495).

Si lancia la riconciliazione su 'materiale' e si matcha il miglior risultato. Si valuta la conservazione del colore del materiale come nel caso della faience mentre si rendono null le celle con il materiale incerto.

Dimensioni | altezza (P2048), larghezza (P2049), spessore (P2610) e peso (P2067)

Il contenuto della cella è stato trasformato con la seguente espressione value.replace("Dimensioni: ",") per ottenere solo i valori numerici. Successivamente sono state create 3 colonne - altezza, spessore e larghezza - basate sulla colonna Dimensioni con separatore x, è stato eliminato il cm nell'ultima colonna con espressione analoga a quella precedente e trasformata la , in . per rendere il valore numerico idoneo all'importazione in WD. Queste tre nuove colonne vengono poi riconciliate sulla proprietà di Wikidata per grandezze fisiche. Si preserva anche il peso laddove presente, avendo cura di distinguere l'unità di misura dei g dai kg. Non si riportano i casi in cui è specificato il peso specifico del materiale o le dimensioni del supporto. Analoga soluzione è stata presa per i casi in cui ci sono più framenti che riportano dimensioni diverse per ogni pezzo.

Periodo e Dinastia | periodo (P2348)

I valori di entrambe le colonne rispondono alla proprietà periodo. Si normalizzano i valori delle celle, si separano in più colonne (con separatore - o ,) in caso di valori multipli e si riconciliano su periodizzazione e su dinastia egizia. Si segnala in un caso in cui sono coinvolte più di due dinastie. In un solo caso si propone di fare attenzione a mantenere il range temporale da una dinastia ad un'altra. Nello schema le due dinastie saranno importate come valori da-a. Quindi come valore del periodo si inseriscono i record delle colonne omonime e come ulteriore proprietà si aggiunge famiglia che corrisponde al valore riconciliato della dinastia.

Il Gruppo C si riferisce con molta probabilità alla datazione di ceramiche della Bassa Nubia, di cui si stanno cercando info per poter creare l'item corrispondente.

L'ulteriore suddivisione interna in a, b, c, e d dei tre periodi Naqada non è stata riportata.

Si segnala per 64 elementi la possibile sovrapposizione tra il periodo protodinastico e l'inizio dell'epoca dinastica. Da controllare.

Regno | persona significativa (P3342)

Trattandosi dei nomi dei faraoni, si mantiene questo dato quando presente con la proprietà persona significativa aggiungendo come qualificatore ruolo dell'oggetto (P3831) faraone (attenzione per la figura di Adriano per cui è più appropriata la definizione di imperatore romano). Si separano i valori multipli in più colonne, si riconcilia su uomo, si effettua il match con il miglior risultato controllando che ci si riferisca al faraone giusto a seconda dei numerali. Unico valore non ricondotto è Marmesha in questa statua.

Data di fondazione o creazione (P571)

Si inserisce il millennio di riferimento creando una colonna apposita con qualificatori gli estremi cronologici di riferimento. Si riconciliano i nuovi valori su millennio e si effettua il match con il millennio a.C. corrispondente. Si avrà poi la premura di modificare nel .txt prima di importare tramite QS il /9 in /6 per inserire il riferimento al millennio.

Dall'anno | data (limite inferiore) (P1319)

Gli estremi cronologici presentano date avanti e dopo Cristo, motivo per cui i valori numerici delle celle sono riconciliati su 'anno a.C.' e 'anno'. Si inseriscono i limiti inferiori (P1319) e superiori (P1326). Inoltre, per maggiori riferimenti cronologici si importano le colonne con il periodo di riferimento, della dinastia e del regno.

Si creano gli item per di anni a.C. non esistenti su WD.

Al | data (limite superiore) (P1326)

Vedi sopra.

Provenienza | luogo di scoperta (P189)

Quando ignota o incerta tra due località, si preferisce rendere null il valore relativo alla provenienza. Qualora presenti su WD, le aree archeologiche sono preferite alle località, solitamente separate da /.

Acquisizione | proprietario (P127), scoperto o inventato da (P61), donato da (P1028)

L'acquisizione è avvenuta per acquisto, donazione o recupero dagli scavi archeologici. Si creano due colonne per i direttori degli scavi. Si crea una colonna per colori che hanno donato l'esemplare con la proprietà donato da Per ciascuna di queste casistiche è riportato l'anno preciso o il terminus ante e post quem, o ancora è riportato un range temporale di riferimento. Si creano colonne per ciascuna di queste casistiche, isolando nella prima il primo proprietario segnando almeno la data di fine che coincide con la data di inizio del secondo valore che verrà aggiunto nello schema di questa proprietà, ovvero il ME che coincide con il valore della colonna Luogo. Nei casi in cui sia riportato solo il riferimento cronologico, si importa in relazione alla proprietà del ME.

Collocazione | luogo (P276)

Si rende necessario trasformare il contenuto delle celle creando un'ulteriore colonna in cui inserire la sotto stringa che specifica il numero della sala [value-substring(0,7)], facendo attenzione inoltre ad eliminare lo zero che precede i numeri delle prime nove sale. Segue la riconciliazione complessa sul tipo stanza che abbia il luogo (ME) corrispondente alla proprietà parte di (P361), essendo state precedentemente create le sale corrispondenti. Per ulteriori dettagli quali la parete, vetrina, armadio o basamento specifico in cui è alloggiato il reperto si rimanda al sito del museo, così da rendere i dati meno suscettibili di modifica in caso di futuri ed eventuali cambiamenti nell'allestimento museale.

Link MW (da normalizzare) | descritto nell'URL (P973)

Si segnalano diversi link non funzionanti, i quali vengono bandierinati per individuare la ricorrenza secondo cui poterli eventualmente editare. Si suddivide l'analisi nei 3 macro gruppi principali per un totale di 2382 elementi:

  • C. 727 elementi: eliminazione dell'=, sostituzione con un underscore per ciascuna parentesi, separazione tra cod. e il numero romano di riferimento con underscore, inserimento di uno 0 prima dei numeri da 1 a 9 (questa affermazione è da controllare), sostituzione della parola dubbio con due underscore, attenzione alla sostituzione dei punti che seguono la serie di numeri poichè spesso fanno riferimento a oggetti della collezione diverso o con numero di catalogo non corrispondente
  • S. 1527 elementi
  • P. 125 elementi: URL funzionanti
  • M. 2 elementi: sostituzione del punto con l'underscore
  • G. 1 elementi: sostituzione del punto con l'underscore

Si eliminano gli spazi per rendere operativi i link come https://collezioni.museoegizio.it/it-IT/material/Cat_+1009.

Si sostituisce il punto con l'underscore nei casi in cui il numero di catalogo abbia varianti dopo i primi 4 numeri (https://collezioni.museoegizio.it/it-IT/material/S_5226.3 a fronte del link funzionante https://collezioni.museoegizio.it/it-IT/material/S_5226_3)

Si inserisce in alcuni casi con i numeri dall'1 al 9 si richiede l'inserimento dello 0 prima dell'ultimo numero negli id con C.

Si eliminano gli 0 nei casi con numeri nell'id da 1 a 9 negli id S.

Si sostituiscono i simboli + e = con l'underscore nei casi relativi a più frammenti papiracei che appartengono allo stessa unità, avendo cura di eliminare la ripetizione della dicitura "Cat" nei numeri di catalogo successivi al primo, di sostituire con underscore solo il + nei casi in cui l'id inizi con S, di sostituire con due underscore / e un ? la dicitura "dubbio". Si eliminano le parentesi quadre aggiungendo un underscore quando non presente già per differenziare il valore entro le parentesi dal resto dei valori dell'id.

In alcuni casi le lettere minuscole diventano maiuscole, in mezzo a due unserscore.

Ci sono alcune eccezioni come in questo caso dove non è previsto un underscore che separa il numero dalla letterina e solo un singolo underscore, invece che doppio, in sostituzione della parola doppio.

NUOVE DICHIARAZIONI

Collezione (P195)

Con questa proprietà si sottolinea l'appartenenza degli oggetti museali alla collezione del ME.

Stato del Copyright (P6216)

Lo status del copyright indica che le opere sono di pubblico dominio.

Fonte dell'affermazione (P248)

Si inserisce come fonte dell'affermazione per tutte le proprietà importate collezioni.museoegizio.it.

Descrizione / Description

Si aggiunge una colonna per tutte le righe in italiano "reperto dalla collezione del Museo Egizio di Torino" e in inglese "find from the collection of the Egyptian Museum in Turin, Italy".

Conclusioni

Dai 2383 elementi iniziali si è scesi a 2347 per la presenza di un doppione, 4 item non esistenti nel db online e item fusi in un'unico id o che costituiscono elementi di un item complesso, riportati di seguito.

Upload immagini

A ciascun manufatto museale corrispondono una o più (anche più di un centinaio) immagini.

OpenRefine

OR permette l'upload di immagini da file in locale o da URL dei file stessi e non una pagina web che li contiene. Si esclude l'applicazione della prima soluzione poiché i file sono molto pesanti (.tif). Inoltre, gli URL già presenti nel nostro spreadsheet riguardano la scheda descrittiva e non l'immagine. Si pensa dunque all'estrazione dei link delle immagini da Nextcloud, in cui erano stati preventivamente caricate le immagini ricevute dal ME, dopo essere stato aggiunto il dominio nell'allowedlist di Wikimedia Commons

Prassi

Creare un nuovo progetto su OR per ogni item prendendo i dati da Appunti. Inserire gli URL delle immagini estratti dalla funzione di download di Nextcloud che diventeranno i record della colonna URL. Aggiungere la colonna depicts il cui valore per tutte le righe è il qid dell'oggetto fotografato che viene riconciliato su WD. Si aggiunge inoltre la colonna wikitext con il template artwork (individuato come il template più idoneo) in cui si inseriscono la fonte e il tipo di licenza, oltre alla categoria di appartenenza [[Category:Media from Museo Egizio (Turin)]]. Si crea una nuova colonna [filename] basata sulla colonna degli URL e modificare il valore attraverso un'apposita espressione substring che riporti esclusivamente il nome del file e la sua estensione. Al valore del filename si aggiunge il nome dell'oggetto fotografato con la funzione replace.

Per la creazione di nuovi elementi su Commons, si riconcilia sull'estensione Commons il filename e si crea un nuovo elemento per ogni cella. A conferma della corretta procedura, la barretta verde che indica lo stato di riconciliazione sotto la cella del titolo della colonna, non è verde scuro come nel caso delle riconciliazioni con WD, ma verde chiaro.

Si procede costruendo lo schema con target Wikimedia Commons partendo dallo schema esistente Artwork. Si prosegue trascinando filename come elemento principale, si aggiungono il filepath o URL, file name e wikitext {{artwork}}. Tra le dichiarazioni è necessario includere, trattandosi del template artwork, raffigura (P180), rappresentazione digitale di (P6243), argomento principale (P921), oltre allo stato del copyright (P6216) e alla licenza (P275).

Si esporta dopo aver fatto log in su Commons tramite il comando Estensioni Wikidata > Carica le tue modifiche su Wikibase e aver inserito l'oggetto delle modifiche (test new item) > carica modifiche.

A seguito di ciò si importa la prima immagine per ogni batch come immagine dell'item Q e si aggiunge la categoria, si preferisce dunque un upload per categorie di oggetti.

Come strumento di monitoraggio interno, si crea un file a parte con l'elenco dei 2382 item. Qui si segnalano il numero di fotografie per oggetto e se sono state caricate o meno. Inoltre, per velocizzare il procedimento, una volta effettuati i caricamenti, si spostano le cartelle di Nextcloud in una nuova cartella.

N.B.

OR non supporta l'upload delle immagini che presentano errori di caricamento già da NC, sebbene vi sia una doppia traccia del non avvenuto caricamento. Nella sezione problemi, a seguito del caricamento, si legge il numero degli elementi non importati. Analogamente, la barra verde indica il non completo caricamento su Commons dei filename, i quali possono essere individuati poiché ancora indicati come new. Il problema tuttavia sussiste anche nelle prive di caricamento di questi file da locale, dopo averli scaricati da NC.

Nota divertente in itinere: nel momento in cui la procedura si ripete in plenaria per individuare il bug da fixare, tutto si è risolto ma teniamo traccia del problema qualora si dovesse verificare nuovamente.

Pattypan

Si valuta l'utilizzo di pattypan nel momento in cui OR non dovesse supportare l'upload di immagini pesanti. In questo caso le immagini verrebbero importate in Wikimedia Commons con pattypan, riconciliate su OF per poter poi aggiungere i dati strutturati sempre con OR.

TO FIX or IMPROVE

Si rilevano ulteriori migliorie da apportare nei valori delle seguenti proprietà:

  • descrizione: possibile aggiungere una descrizione per tutti i reperti come parte della collezione del ME in inglese
  • tecnica: data la complessità testuale, si rimanda ad un secondo momento l'inserimento delle tecniche

NOTE DATI

Oggetti suddivisi nel db che corrispondono ad un unica pagina web

Bandierinati.

Più tuple nel db che fanno riferimento ad un unica pagina web che descrive un manufatto complesso (costituito cioè da più elementi). La soluzione è la creazione di item per i singoli elementi riportando l'id e gli URL di riferimento solo per un nuovo item complesso come in questo caso essendo anche le immagini le stesse o l'unione in un unico item.

  • https://collezioni.museoegizio.it/it-IT/material/Cat_1643_Cat_1645 (parte di e consiste in)
  • S. 294.1-2
  • S. 1067
  • S. 1342/S. 1344
  • S. 7827
  • Cat. 2333 (fusi)
  • Cat. 2327 (fusi)
  • Cat. 2238 (parte di e consiste di)
  • Cat. 2237 (parte di e consiste di)
  • Cat. 2236 (parte di e consiste di)
  • Cat. 2233 (parte di e consiste di)
  • Cat. 2201 (parte di e consiste di)
  • Cat. 2226 (fusi)
  • Cat. 2230
  • Cat. 2228 (parte di e consiste di)
  • S. 5228 (parte di e consiste di)
  • S. 5227
  • S. 5061.1-2-3 (parte di)
  • S. 294_1_2
  • S. 2671_15-18-21-24 (parte di)
  • S. 1343 e S. 1342.1-2-3-4 (fuso in S. 1341_S. 1344)

ID di oggetti non presenti nel catalogo online

Stellinati e bandierinati.

  • S. 12324 (immagine associata a S. 12321)
  • Provv. 3539.12
  • S. 1219.1
  • S. 04580.sic

Item presenti su WD presenti nel catalogo online ma non nel db c

  • S_14396_a

NOTE IMMAGINI

S. 14034, S. 14036, S. 14029 stessa immagine

S. 18097: su 11 immagini disponibili caricate 2 trattandosi di scatti sostanzialmente identici

Associazione nel db non riportata tra S. 13960 e questa immagine

Errata attribuzione del soggetto: nella cartellina relativa alla giara S_8868 presenti due immagini (1 e 2) relative a sarcofago, da attribuire la corretta associazione di item

S. 8575 e S. 8574 presentano le stesse immagini

S. 8524 e S. 8523 presentano le stesse immagini

stessa immagine per S. 8411, S. 8638 e S_8637

stessa immagine per S. 8214 e S. 8215

item S. 5212.1-4, S. 5108, S. 5078, S. 4264, Cat_3456 presente in db immagini ma non db dati: da creare item WD?

S. 4580 sic, S. 1219.1, Provv. 3539 in db foto ma non in db dati e collezione online

Cat_1879_1969_1899 cartella senza file

Glossario

All'interno della relazione si adoperano i seguenti escamotage abbreviativi:

  • OR = OpenRefine
  • WD = Wikidata
  • ME = Museo Egizio
  • NC = Nextcloud
  • QS = QuickStatements