Bando 2021 per progetti dei volontari/Proposte/Controllo di autorità per biblioteche Koha

Da Wikimedia Italia.

Titolo

“Controllo di autorità per biblioteche romane che usano Koha: riduzione del numero di autori non presenti in Wikidata”

Introduzione

L’importanza di Wikidata come strumento per il controllo di autorità è cresciuta significativamente nel corso degli ultimi anni e sicuramente una delle cause di questo successo è la capacità di Wikidata di accettare un’’amplissima varietà di identificativi esterni, attualmente oltre 6200 e in rapida crescita. Wikidata permette dunque a reti di biblioteche e singole biblioteche anche di dimensioni medio-piccole di collegare i loro authority file a un database di enormi dimensioni, con notevoli benefici reciproci: per Wikidata, un arricchimento quantitativo e qualitativo nella copertura di argomenti specifici, che rende il database nel suo complesso superiore a strumenti che si limitano ad accettare i contributi soltanto di partner di grandi dimensioni (cfr. VIAF); per le biblioteche, la possibilità di migliorare la qualità dei propri authority file (bonificando duplicati, conflazioni, date imprecise, record incompleti ecc.) e di arricchirli con informazioni tratte da Wikidata e modellate come un knowledge graph, nonché la possibilità di ottenere, tramite query SPARQL, statistiche anche complesse sugli autori presenti nel proprio catalogo. L’uso di knowledge graph si rivela particolarmente agevole per le biblioteche che usano ILS open source quali Koha, che permettono al gestore del sito di intervenire direttamente sul proprio catalogo aggiungendo funzionalità personalizzate; per questo motivo, la comunità delle biblioteche che utilizzano Koha si è rivelata particolarmente ricettiva nei confronti della connessione degli authority file a Wikidata. Bisogna purtroppo notare che in Italia i software open source per biblioteche sono relativamente poco diffusi; tuttavia, si può osservare come gli authority file di quasi tutte le biblioteche italiane che utilizzano Koha siano ora connessi a Wikidata in percentuali più o meno significative (indicativamente tra il 20% e il 50% dei personal names). In ambito italiano, come noto, un esperimento di creazione massiva di elementi sulla base di un authority file è stato finora svolto presso la Biblioteca europea di informazione e cultura (BEIC). Allo stesso tempo, l’interazione con Wikidata ha svolto un ruolo fondamentale nella creazione e nel mantenimento di SHARE catalogue. Inoltre, l’Istituto Centrale per il Catalogo Unico (ICCU), che gestisce l’OPAC SBN, il più grande catalogo collettivo italiano, ha dal 2015 una convenzione con Wikimedia Italia e ha recentemente dichiarato di voler intensificare la propria attività su Wikidata. Attualmente, tra gli elementi presenti in Wikidata, le entità aventi tra le lingue parlate o scritte (P1412) l’italiano (Q652) sono oltre 115mila, al quinto posto dopo inglese, tedesco, francese e spagnolo. Secondo dati aggiornati ad ottobre 2020, considerando il numero degli authority file di personal names mandati da ICCU e dalla Biblioteca Apostolica Vaticana (BAV) al VIAF, solo il 19,41% delle persone presenti in SBN e il 28,91% delle persone presenti in BAV sono presenti in Wikidata: mentre il dato percentuale è in linea con quello di altre importanti biblioteche straniere (es. 33,76% per BNE - Spagna, 23,68% per BNF - Francia, 17,83% per DNB - Germania), il dato meramente quantitativo evidenzia un notevole ritardo nella situazione italiana (34622 persone per ICCU e 88448 persone per BAV, di contro a 156569 persone per BNE, 428792 persone per BNF, 1012493 persone per DNB). Tale ritardo, in assenza di database che abbiano al tempo stesso un’alta qualità dei dati e una forma strutturata degli stessi tale da permettere un import di qualità accettabile (a differenza del GND, né SBN né BAV dispongono di dati strutturati relativi ai luoghi di nascita/morte, all’occupazione, alle relazioni di parentela delle persone presenti nei loro authority file), deve essere colmato soprattutto con lavoro manuale o semimanuale di volontari che contribuiscano a creare in Wikidata gli elementi mancanti, al fine di fornire tramite Wikidata una sempre più completa panoramica degli autori passati e contemporanei che hanno operato in ambito italiano e le cui opere sono diffuse nelle biblioteche italiane; come già detto, una maggiore copertura in tal senso può recare significativi benefici sia a Wikidata medesima sia alle biblioteche che utilizzano i dati presenti in Wikidata. Al fine di aumentare la conoscenza di Wikidata in Italia si è costituito, nell’ottobre 2020, il Gruppo Wikidata per Musei, Archivi e Biblioteche (GWMAB), patrocinato dal Dipartimento di Musicologia e beni culturali dell’Università di Pavia, le cui attività di formazione online sono riuscite a coinvolgere nella prima metà del 2021 oltre un centinaio di persone, principalmente bibliotecari. Uno degli scopi di questa formazione, che continuerà nei prossimi mesi, è creare in Italia una consapevolezza diffusa riguardo alle potenzialità insite in Wikidata come punto di snodo cruciale per il controllo di autorità, secondo il principio della catalogazione collaborativa, in modo che, anche in assenza di una chiara determinazione da parte dei maggiori attori in gioco (ICCU e BAV), sia comunque possibile creare un vasto movimento dal basso che lentamente migliori, quantitativamente e qualitativamente, la copertura della realtà bibliografica italiana in Wikidata, aprendo anche la strada a futuri progetti di maggiore estensione.

Contesto

Considerato dunque lo sforzo profuso da più parti, negli ultimi mesi, per migliorare al tempo stesso la copertura in Wikidata degli autori le cui opere sono presenti in biblioteche italiane e la formazione dei bibliotecari italiani relativa a Wikidata, si è pensato che possa essere utile, nell’ambito del nutrito gruppo di biblioteche romane che usano Koha come ILS, proporre un progetto che coniughi entrambi i suddetti aspetti: aumentare, con la creazione di nuovi elementi rispondenti a un rigoroso standard qualitativo, la copertura in Wikidata degli autori le cui opere sono presenti in biblioteche italiane (si tratta, per inciso, principalmente di autori o di ambito storico-artistico e archeologico o di ambito cristiano); formare approfonditamente alcuni bibliotecari affinché svolgano tale lavoro su Wikidata e affinché possano ulteriormente diffondere tali competenze nelle rispettive biblioteche. Per una più dettagliata panoramica delle ragioni di questa proposta progettuale e per la bibliografia a sostegno di tali ragioni si rimanda al paragrafo “Introduzione”.

Obiettivi

Primo obiettivo del progetto è la formazione di tre bibliotecari che lavorano presso biblioteche romane che usano Koha come ILS, in modo tale che siano in grado di raggiungere in sostanziale autonomia lo scopo prefissato dal secondo obiettivo. Secondo obiettivo del progetto è la creazione di 1500 elementi (un gruppo da 500 elementi per ciascun bibliotecario) relativi ad autori le cui opere sono presenti in almeno un catalogo di biblioteche romane; si tratta quasi sempre di autori presenti in più di una biblioteca, nonché nei cataloghi di SBN e BAV. Gli elementi creati dovranno rispettare i seguenti requisiti minimi:

  • etichette: it (italiano), en (inglese);
  • descrizioni: it (italiano), en (inglese);
  • sesso o genere (P21);
  • lingue parlate o scritte (P1412);
  • data di nascita (P569), con riferimento contenente una data di consultazione (P813);
  • occupazione (P106), con riferimento contenente una data di consultazione (P813);
  • non meno di 5 identificativi, tra cui almeno VIAF (P214) e almeno un catalogo Koha tra PUSC (P5739), PUST (P5731) e PIAC (P8982).

In data 30 novembre 2021 verrà usata la seguente query per l’individuazione degli elementi creati ottemperanti ai criteri di cui sopra:

 SELECT DISTINCT ?item WHERE {
 { ?item wdt:P5739 [] . } UNION { ?item wdt:P5731 [] . } UNION { ?item wdt:P8982 [] . }
 FILTER ((xsd:integer(SUBSTR(STR(?item),33))) > 107500000 ) . #Nota
 ?item p:P569 [ prov:wasDerivedFrom [ pr:P813 [] ] ] .
 ?item p:P106 [ prov:wasDerivedFrom [ pr:P813 [] ] ] .
 ?item wdt:P21 [] .
 ?item wdt:P1412 [] .
 ?item wdt:P214 [] .
 ?item wikibase:identifiers ?ids . FILTER(?ids > 4)
 ?item rdfs:label ?itLabel . FILTER(LANG(?itLabel) = 'it')
 ?item rdfs:label ?enLabel . FILTER(LANG(?enLabel) = 'en')
 ?item schema:description ?itDesc . FILTER (LANG(?itDesc) = 'it')
 ?item schema:description ?enDesc . FILTER (LANG(?enDesc) = 'en')
 }

#Nota: la stringa 107500000 va sostituita in data 1 settembre col numero dell’ultimo elemento creato in data 31 agosto, in modo che la query conteggi soltanto gli elementi creati dopo tale data.

Solo gli elementi che compaiono in data 30 novembre 2021 come risultati della query di cui sopra vengono conteggiati nel raggiungimento del secondo obiettivo.

Tempi di realizzazione

Il progetto sarà realizzato nel corso dei mesi di settembre, ottobre e novembre 2021, concludendosi il 30 novembre 2021.

Azioni

Innanzitutto, all’inizio del mese di settembre 2021, il proponente provvede gratuitamente alla formazione, prevalentemente o totalmente online, dei tre bibliotecari coinvolti (primo obiettivo), in modo tale che siano in grado di procedere nel lavoro relativo al secondo obiettivo.

I tre bibliotecari coinvolti sono:

  • Alberto Gambardella, laureato in lettere moderne presso l’Università degli studi La Sapienza di Roma; diplomato in Biblioteconomia e documentazione presso la Scuola Vaticana di Biblioteconomia; lavora dal 1989 presso la Biblioteca della Pontificia Università della Santa Croce svolgendo mansioni di catalogazione bibliografica e semantica. Coautore dell’articolo Recupero della classificazione decimale Dewey da altre basi di dati: un progetto di bonifica del catalogo pubblicato nel 2013 sulla rivista Jlis.it (http://dx.doi.org/10.4403/jlis.it-8766).
  • Luigi Gentile, laureato in lettere moderne con specializzazione in filologia italiana. Dal 1993, dopo aver conseguito il diploma in biblioteconomia e documentazione presso la Scuola Vaticana di Biblioteconomia, lavora come catalogatore presso la Biblioteca della Pontificia Università della Santa Croce. Coautore dell’articolo Recupero della classificazione decimale Dewey da altre basi di dati: un progetto di bonifica del catalogo pubblicato nel 2013 sulla rivista Jlis.it (http://dx.doi.org/10.4403/jlis.it-8766).
  • Lucrecia Morón, laureata in storia dell'arte presso l'Università di Siviglia. Si è specializzata in curatela museale presso lo IED di Roma, così come in biblioteconomia e documentazione presso la Scuola Vaticana di Biblioteconomia. Dal 2015 lavora come catalogatrice presso la Biblioteca della Pontificia Università della Santa Croce di Roma.

Successivamente i tre bibliotecari provvedono alla creazione di 500 elementi ciascuno, che devono rispettare i criteri esposti nel paragrafo “Obiettivi”. Alla fine del progetto (30 novembre 2021), per mezzo della query presente nel paragrafo “Obiettivi”, si contano gli elementi creati ottemperanti ai criteri stabiliti; si procede poi alla disamina del creatore di ciascun elemento e si stilano tre liste, una per ogni bibliotecario, da inserirsi nella rendicontazione del progetto.

Considerate le liste, ognuno dei tre bibliotecari riceve un compenso di 2 € netti per ogni elemento creato, fino a un massimo di 1000 € netti se ha effettivamente creato 500 (o più) elementi nel periodo di tempo settembre-ottobre-novembre 2021. Il contributo totale da parte di Wikimedia Italia risulta quindi essere di (massimo) 3600 € lordi, rientranti nella voce del bando “Compensi a professionisti per la realizzazione delle attività oggetto della proposta”, suddivisi fra i tre bibliotecari.

Non è previsto che soci di Wikimedia Italia beneficino direttamente o indirettamente di parte del contributo di Wikimedia Italia. I risultati del progetto verranno promossi tramite i social network afferenti al Gruppo Wikidata per Musei, Archivi e Biblioteche. Si considera infine possibile che il progetto divenga argomento di un articolo scientifico in lingua italiana da pubblicarsi su rivista peer-reviewed di argomento biblioteconomico durante l’anno 2022.

Budget

3600 EUR