Wikimania 2017/Relazione Ester Pantaleo

Da Wikimedia Italia.

Introduzione

Wikimania 2017 a Montreal è stata la mia seconda Wikimania dopo Esino Lario. L'atmosfera a Montreal era sicuramente diversa, meno calda che ad Esino (forse anche per colpa dell'aria condizionata?). Anche in questo caso però Wikimania è stata una bellissima esperienza e una fantastica occasione per conoscere il mondo Wikimedia, Wikimedia Italia e per acquisire competenze tecniche.

La ragione per cui mi è stata assegnata una borsa di studio per partecipare alla conferenza è il tool etytree che sto sviluppando sui Tool Labs. Il tool è basato su un database RDF di informazioni lessicografiche e relazioni etimologiche che ho creato basandomi sul software DBnary ed aggiungendo tutta una parte per estrarre le relazioni etimologiche. Il database si può esplorare attraverso un faceted browser (ad esempio questo è il link alla pagina corrispondente al termine italiano "pistacchio"), oppure si può interrogare con query più complesse attraverso l'endpoint SPARQL, in maniera molto simile a Wikidata. Il tool etytree visualizza l'albero etimologico delle parole facendo delle query al database ed è uno strumento multilingue, ovvero contiene parole in molte lingue. I dati di etytree sono estratti dal Wiktionary inglese, che come tutti i Wiktionary è multilingue. In altre parole etytree è uno strumento per visualizzare i dati contenuti nel Wiktionary inglese, e inoltre per visualizzare le relazioni etimologiche fra le parole su un grafico interattivo.

Sono stata molto contenta di aver ricevuto la borsa perché per me questo significa innanzitutto avere il sostegno di Wikimedia Italia nello sviluppo di questo progetto complesso. E poi perché la partecipazione a Wikimania mi ha dato l'opportunità di interagire con un gran numero di sviluppatori e volontari della Wikimedia Foundation che hanno competenze avanzate su aspetti che sto sviluppando nel mio progetto. Di questo parlerò nella sezione "Interazione con sviluppatori all'Hackathon e a Wikimania". Inoltre la partecipazione a Wikimania mi ha dato l'opportunità di presentare il mio lavoro con un lightning talk (una presentazione breve che fa parte di una sessione mattutina o pomeridiana tutta dedicata a talk brevi) e di questo parlerò più approfonditamente nella sezione "Lightning talk". Ed infine la partecipazione a Wikimania mi ha dato l'opportunità di mettere in contatto un Wikipediano e l'Università di Bari per realizzare un Translate-a-thon di Wikipedia a Bari che coinvolga gli studenti di un Master di Traduzione, progetto che spero sia il primo di una proficua collaborazione. Nell'ultima sezione aggiungerò alcune note su altre presentazioni che ho seguito.

Interazione con sviluppatori all'Hackathon e a Wikimania

Nei due giorni di Hackathon che precedono la conferenza vera e propria, volontari e/o esperti della WMF si cimentano nello sviluppo di particolari progetti software e chiunque può proporre un soggetto di lavoro. Io ho voluto approfittare dell'occasione per interagire con tecnici che si occupano dei Tool Labs e con sviluppatori Wikidata. Ho avuto importanti suggerimenti per migliorare il codice javascript per l'interfaccia grafica e le query SPARQL confrontando il mio progetto con Wikidata Query. Inoltre mi è stato suggerito di utilizzare Gerrit per avere code review. Poi ho avuto l'occasione di parlare con gli sviluppatori di Wikidata for Wiktionary e di confrontare la loro struttura dati con quella utilizzata nel mio progetto. L'obiettivo finale è quello di esportare i dati contenuti nel database RDF di etytree in Wikidata.

Avrei voluto interagire con più volontari del progetto Wiktionary ma ne ho trovati davvero pochi, nonostante abbia utilizzato diversi canali per la ricerca.

Lightning talk

La presentazione che ho fatto a Wikimania l'ultimo giorno (domenica) si intitola:

The genealogy of words: a database of etymological relationships and a graphical multilingual etymology dictionary

ovvero

A graphical and interactive etymology dictionary based on Wiktionary

Al link etytree ci sono più dettagli, in inglese, sulla presentazione, le slide del talk ed anche un video girato da un volontario di Wikimedia Italia, Filippo Esposito (grazie Filippo!).

Il numero di persone presenti al talk era ristretto, credo anche perché i lightning talk non sono così "pubblicizzati" nel senso che sul programma generale non sono riportati i titoli di ciascuno dei lightning talk.

Altro

Ho seguito soprattutto talk e workshop legati a Wikidata e a Wiktionary, ma anche a Wikimedia Research. Di formazione sono un fisico ed ora faccio molta programmazione, per questo talk più tecnici mi appassionano di più. Nelle sezioni che seguono descrivo alcuni dei talk che ho seguito.

Possible strategies of increasing involvement of scientists and academics in Wikimedia projects

Questo talk Possibili strategie per accrescere il numero di scienziati ed accademici in progetti Wikimedia ha affrontato un interessante problema: come attrarre persone fortemente specializzate all'interno di progetti Wikimedia, in modo tale che le loro conoscenze possano essere disponibili poi per tutti.

Secondo la speaker ci sono diverse ragioni per cui è difficile attrarre queste persone verso progetti di questo tipo: ad esempio spesso tali persone credono che articoli di Wikipedia siano di bassa qualità e che il processo di editing sia caotico e disorganizzato e soggetto a vandalismo oppure a informazioni di parte. Inoltre, sostiene la speaker, lo scienziato che modifica articoli su Wikipedia sarà soggetto a critiche o contestazioni sulle pagine di discussione per il contributo apportato, critiche formulate da persone che non hanno lo stesso bagaglio di conoscenza - in altre parole secondo la speaker il problema è che gli scienziati non contribuiscono a Wikipedia perché la loro autorità e le loro competenze non sono riconosciute su Wikipedia.

La speaker ha quindi proposto come soluzione quella di creare eventi con lo scopo di coinvolgere tali persone e avvicinarle all'editing di Wikipedia o altri progetti, e ha portato vari esempi, tra cui competizioni fotografiche e mini workshop presentati in diverse istituzioni accademiche.

Il pubblico ha sollevato due questioni:

  1. la prima che spesso ricercatori, oberati dalla quantità di lavoro legata alla loro ricerca, non hanno tempo di contribuire a Wikipedia, anche perché tale lavoro non è ufficialmente riconosciuto (non può essere aggiunto ad un CV);
  2. la seconda è che per aggiungere materiale sulla propria ricerca, il ricercatore dovrebbe citare se stesso, il che entra in conflitto con le policy di Wikipedia; per cui il ricercatore che lavora su un argomento particolare, dovrebbe piuttosto contribuire a pagine vicine al proprio soggetto di ricerca, ma non al proprio.

State of Wikimedia Research

Questa presentazione ha focalizzato l'attenzione su alcuni argomenti che sono ritenuti di interesse per la comunità di Wikipedia, attingendo materiale da pubblicazioni peer reviewed dell'ultimo anno ed escludendo il lavoro di persone presenti a Wikimania. Ogni anno vengono generate circa 500 pubblicazioni di questo tipo e quindi gli autori della presentazione ne hanno selezionate alcune.

Gender gap

Il primo argomento scelto è il gender gap, un tema sempre di attualità per Wikipedia. Gli speaker hanno parlato di due pubblicazioni. La prima studia gli editor della Wikipedia inglese, ed in particolare il comportamento sia degli editor maschili che femminili (dove il sesso è un dato fornito dall'editor). In particolare gli autori evidenziano come gli editor di sesso femminile si dedichino all'editing di biografie di uomini più che di biografie di donne. Un altro articolo di cui hanno parlato gli speaker mostra come le pagine di Wikipedia che definiscono professioni contengono molto più spesso immagini di uomini che di donne, anche in professioni prevalentemente femminili.

Fake news

Il secondo argomento presentato è anch'esso di grande attualità e riguarda le notizie false. Gli speaker descrivono un paper che fa uno studio quantitativo degli articoli della Wikipedia inglese che sono stati segnalati come "bufale" ("hoaxes"), includendo gli articoli che sono stati poi rimossi. Nel paper mostrano come la maggior parte delle "bufale" venga rimossa in poche ore, non contenga degli elementi tipici di un articolo ben scritto come infobox, link oppure template ed infine come un algoritmo di classificazione riesca a riconoscere automaticamente gli articoli falsi (addirittura nel 91% dei casi) e come l'algoritmo abbia una performance significativamente migliore della performance di una persona.

Altro

Gli speaker hanno anche parlato del potere predittivo di Wikipedia, in particolare il potere predittivo nelle elezioni. In un paper degli autori hanno mostrato come, un modello predittivo standard che utilizza oltre ai dati standard anche le "pageviews" di Wikipedia, funzioni meglio di un modello predittivo standard. Poi gli speaker hanno parlato dell'influenza di Google e del suo motore di ricerca su Wikipedia, di cambiamenti in Wikipedia correlati con cambiamenti nel mondo esterno (ad esempio incremento di turismo, crisi economiche, etc), dell'uso di Wikipedia per scopi educativi, ed infine dell'utilizzo dei dataset messi a disposizione dalla Wikimedia Foundation da parte di ricercatori ("content dumps" ovvero copie del contenuto di Wikipedia o altri progetti, numero di "pageview", dati relativi a "clickstream").

Recording words for Wiktionary and preparing for an AI assistant

In questo talk, gli speaker hanno presentato una demo dell'utilizzo di Kathabhidhana, un software open source per registrare suoni in una lingua qualsiasi, caricarli su Commons e definire i metadati.

Il talk mi interessava perché era uno dei pochi centrati su Wiktionary.

A mio avviso il titolo non rappresentava il contenuto del talk, infatti l'applicazione del software descritto all'Artificial Intelligence non è così immediata. Anche il software stesso presenta un'interfaccia davvero poco user friendly e richiede di compiere numerosi step utilizzando risorse diverse.

Bringing lexicographical data to Wikidata: supporting Wiktionary and beyond

Questo talk è uno dei talk per me più interessanti perché riguarda il progetto di preparazione di Wikidata per dati lessicografici (ovvero i dati conenuti in wiktionary). Il mio progetto si occupa esattamente di questo: estrarre dati lessicografici (ed anche etimologici) da Wiktionary e inserirli in un database.

La speaker è Lydia Pintscher, product manager di Wikidata. Lydia ha mostrato come allo stato attuale Wikidata non ha le strutture adatte per salvare dati lessicografici, e ha mostrato un prototipo di struttura per dati lessicografici che gli sviluppatori di Wikidata hanno costruito dopo mesi di lavoro.

Un interessante aspetto che Lydia ha evidenziato è come nell'ultimo anno ci sia stata una riduzione significativa del numero di editor del Wiktionary inglese, il che è probabilmente dovuto all'iniziativa di Wikidata di trattare anche i dati contenuti nel Wiktionary. La scelta è infatti controversa e Lydia ha cercato di spiegare i vantaggi che conseguirebbero dall'introdurre dati lessicografici provenienti dai vari Wiktionary in Wikidata.

Wikispecies and Wikidata - a match made in heaven, or hell?

Anche questo talk è a proposito di Wikidata e dell'importazione di un "sister project" in Wikidata. In questo caso dell'importazione dei dati di Wikispecies all'interno di Wikidata.

L'argomento è anche in questo caso controverso. La community di Wikispecies non vuole che Wikidata entri nel progetto. Inoltre, a quanto pare, raggiungere la community per discutere dell'argomento di persona ed iniziare un dialogo sembra molto difficile. Probabilmente, come Lydia ha fatto notare, Wikidata per il momento, date le difficoltà legate a questo problema, non si occuperà di questa integrazione.

Nel talk si facevano notare i vantaggi conseguenti dall'introduzione di dati tassonomici in Wikidata: potrebbero essere rappresentati modelli alternativi mentre al momento, mi sembra di capire, il modello presente in Wikispecies è unico la community poco aperta ad aggiungere modelli alternativi. Per questo, probabilmente, degli editor con punti di vista differenti non possono portare il loro contributo. Potrebbero invece farlo se questo tipo di dati fosse contenuto in Wikidata.

SPARQL – a gentle introduction to the Wikidata Query Service

Durante questo talk ho avuto l'opportunità di conoscere di persona due degli sviluppatori di Wikidata Query Service, i quali lavorano su un software molto simile al mio: anche io sto scrivendo SPARQL queries per interrogare il database RDF di relazioni etimologiche.

Confrontando il loro software con il mio ho potuto trovare spunti davvero interessanti per il mio software, per migliorarlo.

Durante questa sessione ho imparato ad utilizzare il servizio di query e a capirne anche i problemi, problemi legati essenzialmente al fatto che è molto difficile accompagnare l'utilizzatore nella scrittura di query complesse al database in maniera semplice e user friendly.

Wikidata meetup

Il meetup Wikidata è stato interessante perché c'è stata una parte iniziale che era un gioco, e che ha permesso di rompere il ghiaccio. Dopo di che partecipanti si sono divisi in gruppi di lavoro. Io ho conosciuto le persone che erano sedute al mio tavolo e con due di loro ho parlato del mio progetto ed ho avuto consigli e suggerimenti molto interessanti e con una di queste persone credo interagirò ancora in futuro per consigli sul software, in quanto ha offerto la sua disponibilità a future collaborazioni.

Conclusioni

Concludo questa relazione salutando tutte le persone di Wikimedia Italia che ho conosciuto a Montreal che spero di rivedere presto!