Primo bando 2022 per progetti dei volontari/Catalogazione di epigrafi e iscrizioni dell Antica Roma presenti in Italia

Questa pagina è relativa a una proposta finanziata da Wikimedia Italia

Contesto

Un prosieguo della collaborazione con il gruppo WikiClassics. Lo scorso anno, su proposta di Gian Francesco Esposito, fu impostata una collaborazione del gruppo WikiClassics (affiliato di WMF dal 2019) con Wikimedia Italia (e la supervisione di Wikimedia Svizzera) per un primo progetto di valorizzazione della lingua latina.

Il tema della lingua latina e della cultura classica in generale è intrinsecamente transnazionale e per questo si è deciso di porlo al centro come filo conduttore delle varie proposte Wikidata in virtù della natura multilinguistica della piattaforma. La pagina del progetto è https://www.wikidata.org/wiki/Wikidata:Testi_latini. Il progetto “Testi Latini” è stato pensato per migliorare varie porzioni degli elementi relativi alla lingua latina su Wikidata, producendo ordine progressivo in vari settori e in seguito anche in altre piattaforme (in primis Commons e Wikisource in varie lingue).

Il progetto si focalizza in generale su aspetti che normalmente non verrebbero trattati in modo esaustivo o in breve tempo dalla comunità dei volontari, o che al momento raggiungono sulle piattaforme standard più bassi di qualità rispetto a altre aree tematiche. Il suo scopo è agevolare lavoro specifico che altrimenti i volontari porterebbero avanti in modo frammentario e disomogeneo, creando ordine e buone pratiche che possano poi estendersi ad altri settori. Non è prevista una priorità delle varie azioni proposte (per esempio nella pagina di discussione si è abbozzata anche una proposta sui classicisti), il progetto focalizza la propria attività in base alle risorse mobilitabili.

Nel corso del 2020-2021 nella prima porzione di lavoro finanziata da WMI si sono affrontati gli autori in lingua latina, che è il primo passo necessario per ordinare in futuro tutti i testi in questa lingua. Il lavoro era particolarmente necessario soprattutto per i testi medievali ed ha richiesto mesi di lavoro manuale.

Nel corso di questa prima fase del progetto si è comunque anche esplorato il tema delle iscrizioni in ambito archeologico con un’analisi della situazione come si può leggere sul rapporto consegnato a WMI a fine attività. Poiché il bando attuale proposto da WMI riguarda la valorizzazione del patrimonio culturale italiano, con questa proposta si punta a riprende il tema delle iscrizioni e delle epigrafi in lingua latina partendo dal miglioramento degli elementi relativi a quelle presenti nella penisola Italiana.

Obiettivi

Il target è portare la qualità di catalogazione e descrizione su Wikidata e Commons nel campo delle epigrafi a livelli medio-alti, grazie ai quali l’italia possa essere individuata come esempio virtuoso da parte di altri affiliati e comunità wiki.

Impostare il lavoro attorno a un import di metadati di alta qualità sarebbe una strategia possibile, perché in ambito archeologico ci sono vari database completi e consultabili. Tuttavia i loro contenuti non sono nella licenza appropriata per un import massiccio (via OpenRefine), Per esempio http://sicily.classics.ox.ac.uk/inscriptions/ è completo di metadati per la Sicilia, ma è in CC-BY, non CC-0, mentre https://arachne.uni-koeln.de/arachne/ riporta un copyright esclusivo.

Conseguentemente, il lavoro deve focalizzarsi su cosa manca procedendo a livello manuale. Non si tratta quindi un processo rapido, ma limitatamente all’italia è ancora possibile in un tempo contenuto.

Puntiamo quindi alla rifinitura manuale di tutti gli elementi di epigrafi e iscrizioni in lingua latina dellAntica Roma già presenti su Wikidata, e dei file già presenti su Commons, inclusa la creazione di contenuti ancillari necessari per integrare le due piattaforme. I passaggi sono descritti in dettaglio nella sezione successive.

Azioni

Su Wikimedia Commons

Il punto di partenza è creare categorie specifiche per ogni file (o insieme di file) in https://commons.wikimedia.org/wiki/Category:Ancient_Roman_inscriptions_in_Italy con la massima precedenza per quelle del Corpus Inscriptionum Latinarum.

Per ogni file non ci limiterà solo a migliorare la categorizzazione, ma si passerà al miglioramento degli elementi Wikidata relativi per l’inserimento dell’infobox laterale e anche dei metadati strutturati.

Il miglioramento dei metadati (https://commons.wikimedia.org/wiki/Commons:Structured_data) è particolarmente critico per i file di epigrafi e iscrizioni. Per capire il basso livello di partenza, vedasi il risultato di questa ricerca (https://hay.toolforge.org/sdsearch/#q=haswbstatement:P180=Q669777) e quanti pochi termini individua. Arricchendo di metadati i file, è possibile compiere un altro passo per allineare in futuro la ricerca semantica su Commons in questo settore a database più sofisticati.

Su Wikidata

Tutti gli elementi già presenti (al momento solo una ventina secondo Wikidata Query Service) o individuati da Wikimedia Commons vanno migliorati sotto vari punti.

A livello di descrizione, etichette e alias si deve in particolare iniziare e completare il processo di standardizzazione di questi aspetti almeno per degli elementi del Corpus Inscriptionum Latinarum fra cui l’uso del numerale romano e dello 0 nel riempimento dei codici numerici. Si deve pertanto aprire una discussione e poi procedere all’applicazione dello standard su tutti elementi esistenti, ottenuto sia tramite feedback o tramite silenzio-assenso sulla proposta iniziale.
P18 (immagine) e P373 (categoria di Commons) devono essere correttamente riportate ove possibile.
Eventuali coordinate di geolocalizzazione se presenti su Commons vanno riportate sugli elementi, assieme alle proprietà relative all’entita amministrativa e alla collocazione: P7859 (Paese storico), P276 (ubicazione), P17 (paese), P131 (località amministrativa)
: Fondamentale nell’ambito del progetto sono le proprietà relative ai testi: si deve quindi procedere all’inserimento di tali elementi di P282 (sistema di scrittura), P1684 (iscrizione) e P7008 (testo non abbreviato). Per farlo è auspicabile anche in questo caso discutere gli standard di formattazione e di fonti autorevoli con la comunità; pertanto, è improbabile che sia completato in pochi mesi, ma almeno un centinaio di elementi alla fine del progetto dovranno riportare queste informazioni.
Iniziare l’inserimento di identificativi terzi, anche se in modo manuale e quindi difficilmente con una copertura omogenea, è un altro aspetto del progetto. Per esempio, P7021 (Arachne object ID) anche come riportato nella sezione introduttiva, può essere inserito in primis per ragioni di licenza solo manualmente e non come import massivo. Un altro già presente è P8532 (Trismegistos text ID) usato solo in poco più di 350 item al momento della stesura di questo progetto. Cercando di inquadrare gli elementi da creare è abbastanza naturale incontrare le schede di questi archivi e quindi inserirli come ID.
Nei limiti del possibile bisogna iniziare a separare elementi di artefatti dalle iscrizioni vere e proprie, e anche qua si deve iniziare a discutere di uno standard nei progetti competenti e applicarlo in modo sistematico a quanti più elementi possibile.

L’obiettivo è arrivare a dotare almeno un migliaio elementi Wikidata (ampliati o di nuova creazione) di iscrizioni e epigrafi geolocalizzati in Italia di almeno una decina di dichiarazioni. A quelle elencate si possono aggiungere anche proprietà relative al periodo storico, al materiale e alle dimensioni, ma dipendono molto di più dalle fonti terze disponibili, soprattutto se si creassero meno elementi del previsto si punterebbe a migliorare il livello di quelli presenti al massimo livello di dettaglio.

Spese e soggetti beneficiari

L’unico tipo di spesa necessario sono “compensi a professionisti” per la realizzazione delle attività “oggetto della proposta”. Non è prevista alcuna altra voce di spesa, trattandosi di lavoro personale.

Non sono necessarie “spese utili alla promozione del progetto proposto anche sul web” perché va comunicato solo il risultato finale e per questo bastano i canali di Wikimedia Italia. In aggiunta, i canali sociali di ClassicsWiki sono rodati, soprattutto l’account Twitter, e anche i tre canali sociali dell’account Wikidata in italiano sono mirati su follower che hanno specifico interesse su questi temi. Si aggiungono a quelli di Wikimedia Italia come mezzo di disseminazione.

L’attività avrà la durata di quattro mesi e partirà entro un mese dall’approvazione del finanziamento e sarà svolta da Alessandro Marchetti del gruppo WikiClassics, essendo la persona che ha impostato l’analisi sulle iscrizioni e le epigrafi in lingua latina su Commons e Wikidata nel bando precedente.

Budget

L’importo è stimato in 1000.00 EUR. A norma di bando, è previsto un pagamento diretto previa ricezione della fattura intestata a Wikimedia Italia.

Relazione conclusiva

Breve descrizione

Il progetto è una continuazione del lavoro iniziato con il progetto Wikidata:Testi Latini ( https://www.wikidata.org/wiki/Wikidata:Testi_latini ) circa due anni fa. Con questi progetti derivati si punta, anche se a piccoli passi, a strutturare e incrementare gli elementi Wikidata che possano contribuire alla valorizzazione della lingua latina. Dopo aver affrontato nel progetto precedente soprattutto il tema degli autori in lingua latina soprattutto medioevali (che non sarebbero mai stati affrontati in tempi rapidi dalla comunità), con questo nuovo modulo ci si è dedicati a esplorare un tema più affine ai beni culturali, quello delle epigrafi in lingua latina. Nessun modulo è autoconclusivo, e come il precedente incentrato sugli autori ha portato una prima esplorazione incidentale del tema delle epigrafi, questa porzione analizzando le epigrafi ha a sua volta aperto nuovi scenari che andranno affrontati negli anni seguenti .

Proponente: Gianfrancesco Esposito (Mizar)

Finanziamento accordato: un pagamento diretto a chi doveva svolgere il progetto, fissato a EUR

1000.00

Spese effettuate: al momento del saldo della fattura, il totale resta quello se WMI

concorda. Parliamo di un mese di lavoro come salario, fra indagini preliminari e poi produzione di contenuti siamo su quell’ordine di tempo, lavoro preparatorio svolto verso maggio e la produzione di contenuti verso giugno.

Attività svolte

Il progetto era un punto di partenza, data la vastità del tema (come si può comprendere dalle successive sezioni). Mappare tutte le epigrafi relative all’Italia richiederebbe più di un piccolo progetto, interi settori accademici di gruppi di ricerca si limitano a database di area regionale, quindi è sempre stato inteso come una missione esplorativa per strutturare il know-how necessario in futuro.

Quanto si è trovato è stato alle volte abbastanza diverso da quanto pronosticato.

Obiettivi raggiunti

È stato creato e impostato su vari fronti un nuovo progetto Wikidata https://www.wikidata.org/wiki/Wikidata:WikiProject_Epigraphy che si occuperà degli elementi di epigrafi in modo intensivo e mirato nei prossimi anni.

È stata completata un’analisi della qualità dei supporti multimediali su Commons. Si è constatato come la categorizzazione, ove presente (almeno per beni culturali italiani), sia ben impostata, ma da oltre dieci anni in uno stato di parziale abbandono e il fatto che nessuno avesse proceduto a integrare con Wikidata è indizio di una carenza strutturale che a breve non sarebbe stata colmata dalla comunità. Nelle sottocategorie Commons di volumi CIL circa un quinto ha anche informazioni di trascrizione e relativamente alle collezioni museali le informazioni sono in generale complete. Tuttavia, mancano moltissime iscrizioni catalogabili come CIL, che saranno su Commons ma non sono facilmente accessibili se non procedendo a migliorare il tema a fondo per singole zone geografiche o collezioni museali.

Sul punto (1) del progetto, la codifica organica e consistente per gli alias e le descrizioni delle epigrafi riportate nel CIL è stata completata, con il parare favorevole di un utente esperto della materia estraneo al progetto.

Sul punto (2) l’uso di P18 è stato adottato negli elementi creati, si è deciso di ignorare P373 ritenendo che il collegamento a Commons sia sufficiente e l’informazione può essere duplicata in seguito agevolmente via bot; al suo posto si è dato risalto a P5555 ( schematic ), che invece non era nello schema originario ma è molto importante perché i file di schemi permettono l’esistenza di molte sottocategorie su Commons.

Sul punto (3), i metadati di geolocalizzazione, vedere il paragrafo successivo sulle criticità; in generale si è preferito implementare altre proprietà, fra cui le collezioni museali. Sono stati migliorati alias in italiano e inglese di varie istituzioni, fatto che speriamo velocizzi riconciliazioni future.

Sul punto (4), le proprietà relative ai testi, si è proceduto a standardizzare il modello per P282 e P1684. La frazione di elementi creati con P1684 è stata più alta forse di quanto auspicabile, perché le foto ben descritte su Wikimedia Commis hanno abbastanza spesso questa informazione.

Sul punto (5) abbiamo indagato soprattutto P7021 ( Arachne object ID ) e la sua integrazione in un lavoro manuale, i risultati sono esposti nel nuovo progetto.

Sul punto (6), la separazione di elementi di artefatti e iscrizioni, si è convenuto che non è strettamente necessario al momento, e che è sufficiente una codifica rigorosa dei metadati che renderà possibile in futuro sdoppiare gli elementi ove necessario. Vedere https://www.wikidata.org/wiki/Wikidata:WikiProject_Epigraphy#instances . Le doppie istanze sono monitorate con apposita query.

Altri punti non originariamente previsti sono stati riflessioni sull’uso di P2596 ( culture ) e soprattutto P 6216 ( copyright status ) , per i quali la linea guida del progetto è abbastanza chiara e completa.

Difficoltà incontrate

Sul punto (3) per varie immagini era riportata solo la collocazione quindi abbiamo usato soprattutto P195 ( collection ) o in alcuni casi P361 ( part of ) e la simmetrica P527 ( has part ), mentre si è tagliato sui metadati relativi alla provenienza originaria. Proprietà normalmente impiegate con beni immobili potrebbero essere fuorvianti in generale, quindi la discussione è ancora in corso al progetto e ci vorranno vari esempi ancora per raggiungere un pieno consenso. Inoltre i dati su Wikimedia Commons relativi a coordinate sembrano essere particolarmente carenti e quindi sarebbe stato impossibile importarne molti (al di là della impossibilità di convertire la licenza CC-BY - SA). Le informazioni sulla geolocalizzazione sono comunque riportate , oltre che nelle proprietà elencate nel precedente periodo, anche in modo discorsivo nella descrizione. Un esempio è il lapidarium civico di Brescia che è abbastanza strutturato a livello di relazioni fra elementi e definito compiutamente almeno per le immagini presenti, ma negli elementi l’indicazione del comune di Brescia non è stata ancora inserita.

Sul punto (4) il principale problema su cui non c’è accordo è il ruolo del maiuscolo nella trascrizione. Un altro aspetto degno di nota è la gestione delle versioni tradotte che spesso sono presenti in italiano o inglese in alcune descrizioni più accurate dei file di Wikimedia Commons. Stiamo ancora dibattendo sullo standard migliore.

Sul punto (5) gli archivi con proprietà Wikidata stabili sono poco integrati con quelli del CIL: di conseguenza è molto complesso unire i due aspetti e quindi l’utilizzo degli ID esterni è stato difficoltoso. Dei due proposti per indagine in quanto già presenti su Wikidata, P8532 ( Trismegistos text ID ) non è consultabile senza sottoscrizione ed è comunque prevalentemente dedicato ai papiri, mentre l’altro P7021 ( Arachne object ID ) ha molte più potenzialità ma è inadatto a un lavoro manuale produttivo. La sua ricerca strutturata è infatti carente come interfaccia, ma si possono trovare epigrafi con iscrizione e, scorrendo, isolare quelle dell’area geografica di interesse. Tuttavia, non avendo solitamente trascrizione nella parte descrittiva, recuperare il codice CIL nel caso di iscrizioni latine è complesso e richiede spesso passare da Google Books come ricerca, se non già presenti nelle descrizioni di Commons. Per produrre al massimo un elemento completo con identificativo esterno può passare quasi mezz’ora, mentre nello stesso tempo partendo da cosa è ben descritto su Wikimedia Commons si potrebbero creare almeno cinque elementi. Sarebbe diverso se si creassero gli elementi tralasciando totalmente il problema dell’iscrizione, ma il progetto aveva come focus quell’aspetto più che il bene culturale. Abbiamo riportato tutte queste considerazioni sulla pagina del progetto in inglese, per facilitare futuri editori.

La mancanza di identificativi ha ridotto molto la referenziazione da parte di fonti terze. Nei fatti si è mimato il processo di strutturazione delle prime fasi di Wikidata, mentre oggi non si inserisce quasi mai un metadato senza fonti. Per impostare un progetto duraturo è sembrata però una soluzione accettabile, considerato che le descrizioni e informazioni su Commons erano stabili e inserite da utenti di lungo corso. Per arrivare alla fontazione organica serviranno import d’intesa con database esterni, probabilmente. Il progetto non ha fissato ancora vincoli stringenti per l’utilizzo di references . Ultimo caveat in generale riguarda le licenze. Copia-incollando si sarebbero potuti produrre ancora più elementi su Wikidata partendo da Wikimedia Commons, ma il grosso delle informazioni è riportato sotto la licenza standard di Commons e non nei dati strutturati. Tutta la parte in CC-0 nei file delle epigrafi su Commons risulta mediamente se non particolarmente carente rispetto a altri settori, anche se questo è condiviso con molti ambiti tematici secondari. Trasporre i dati manualmente in Wikidata per renderli fruibili anche sotto CC-0. (la licenza è uno dei motivi per cui un’automazione non era possibile) ha permesso di fare il possibile per evitare con copia-incollamenti la violazione dei diritti degli utenti di Wikimedia Commons, ma allunga i tempi dell’operazione.

In ogni caso si è provveduto a migliorare la qualità e quantità dei dati CC-0 su Commons delle foto utilizzate anche su WIkidata: l’inserimento dei tag dei metadati è stato svolto manualmente nei file e adesso il settore delle epigrafi dell’antica Roma inizia a essere pienamente integrato nel sistema di query. Questa operazione ha però richiesto un ulteriore passaggio. Essendo stato un lavoro esplorativo, non è che il risultato numerico delle query è adesso vistoso, è solo nettamente superiore di come era all’inizio, praticamente irrilevante.

Possibili sviluppi futuri

I futuri sviluppi saranno portati avanti nell’ambito del progetto tematico che è stato impostato e sarà a breve comunicato anche sui canali sociali dello user group WikiClassics.

Alcuni sono prettamente “quantitativi”. Si tratta di continuare nella creazione di elementi, e il ritmo sarà limitato da altri impegni come sempre nel lavoro volontario, ma non si fermerà. Oltre al semplice lavoro volontario, questo lavoro apre di fatto la porta a cooperazioni organiche con lapidarii di enti museali, fissando spunti e pratiche solide. Se in futuro si volesse procedere a contattare istituzioni a Brescia, Verona, Mantova, Roma o Capua si potrebbe procedere rapidamente a stendere un progetto organico sapendo che i modelli di lavoro sono già pronti e che quindi il “cosa” su cui si vuole procedere a migliorare la copertura ha maggior peso del “come”. Resta implicito che il lavoro sarebbe facilitato se fossero ceduti in licenza libera fogli di lavoro ricchi di metadati, ma appunto il progetto è impostato manualmente perché in generale si trovava al massimo licenza CC-BY sui database in rete. Il progetto resta in ogni caso a disposizione per agevolare chiunque voglia cimentarsi in futuri import, non appena un’istituzione vorrà offrire una licenza libera compatibile con Wikidata.

Fra i temi più intricati da affrontare a livello formale, sulla qualità degli elementi, resta quello della categorizzazione multipla su Commons per elementi relativi alle iscrizioni. Il tema di elementi che riguardino iscrizioni e artefatti si può ritenere meno critico a livello pratico di quanto si temesse (una semplice query di progetto permetterà di monitorare il fenomeno e la standardizzazione permetterà di separare i metadati se sarà necessaria una partizione), ma la categorizzazione multipla su Commons in base a database distinti per la medesima iscrizione richiede di fissare un qualche tipo di redirect che però va discusso in quel progetto e non su Wikidata, e questo prenderà altro tempo. Altro tema minore che sarà affrontato quello delle copie, che sono spesso vicine alla notabilità in quanto antiche, e che sono collocate nella posizione originale rispetto al bene antico. Bisogna definire l’ontologia e la categorizzazione su Commons, che spesso non discrimina i due concetti.

Altri aspetti che invece riguardano gli elementi Wikidata come p.e. il dettaglio sulla geolocalizzazione o la codifica esatta degli estremi archivistici delle iscrizioni saranno probabilmente risolti entro pochi mesi in sede di progetto. C’è poi il tema ancora più vasto da affrontare delle altre lingue oltre al latino, del quale probabilmente si faranno carico altri utenti, estendendo il modello per le epigrafi dell’antica Roma ad altre civiltà.