Differenze tra le versioni di "Microgrant/2018/Scansioni da BNCF per rari Salgari/Relazione"

Da Wikimedia Italia.
Jump to navigation Jump to search
(comincio)
 
 
(18 versioni intermedie di 2 utenti non mostrate)
Riga 8: Riga 8:
 
# poi le ha unite in PDF con image2pdf per comodità di caricamento in Internet Archive,
 
# poi le ha unite in PDF con image2pdf per comodità di caricamento in Internet Archive,
 
# usando IA-upload ha caricato il DjVu in Commons,
 
# usando IA-upload ha caricato il DjVu in Commons,
# ha eseguito il "match & split" in Wikisource.
+
# ha eseguito il "[[s:Aiuto:Match_and_Split|match & split]]" in Wikisource.
  
Per a suddivisione delle immagini ha anche creato un programmino Python.
+
La procedura è stata delineata con maggior precisione in [[s:Utente:Alex brollo/Resoconto di una importazione 2018]].
  
 
BNCF non ci fornisce i TIFF a questo prezzo, ma riducendo le immagini in bianco e nero l'OCR viene abbastanza bene. Mantenendo i colori, invece, l'OCR non dava quasi nessun risultato, anche per via del rumore di fondo e delle pagine non dritte. È stato considerato anche unpaper, ma alla fine è bastato ScanTailor.
 
BNCF non ci fornisce i TIFF a questo prezzo, ma riducendo le immagini in bianco e nero l'OCR viene abbastanza bene. Mantenendo i colori, invece, l'OCR non dava quasi nessun risultato, anche per via del rumore di fondo e delle pagine non dritte. È stato considerato anche unpaper, ma alla fine è bastato ScanTailor.
  
Ha poi creato le pagine indice e le pagine in namespace principale e cominciato qualche rilettura. Nel far ciò ha scoperto qualche pagina mancante, che ho potuto chiedere e ottenere prontamente da Gap/BNCF.
+
Alex ha poi creato le pagine indice e le pagine in namespace principale e cominciato qualche rilettura. Nel far ciò ha scoperto qualche pagina mancante, che ho potuto chiedere e ottenere prontamente da Gap/BNCF.
  
== Pubblicizzazione delle opere disponibili==
+
Il 27 dicembre 2018 abbiamo ricevuto le [[Microgrant/2018/Scansioni da BNCF per rari Salgari/2|ulteriori scansioni del secondo lotto]]. Entro gennaio 2019, tutte le scansioni del secondo lotto sono state caricate su IA e su Commons e sono state create su Wikisource le pagine Indice relative. Il processo di proofreading è cominciato (per le opere già presenti come testi senza scansioni, è già stato effettuato il Match and Split).
  
Ancora da fare nelle liste WMI ecc.
+
Le scansioni hanno confermato la veridicità delle schede di catalogo per quanto riguarda le illustrazioni, cioè che erano fuori testo e in fogli a parte (''c. di tav.'' o "carte di tavole" in gergo). È stato quindi possibile "sbiancare" tali pagine in Wikimedia Commons senza ridurre l'integrità delle immagini a fronte.
 +
 
 +
Per alcuni dettagli tecnici vedi [[s:Utente:Alex_brollo/Resoconto_di_una_importazione_2018#Secondo_caricamento_.28gennaio_2019.29|questa pagina su Wikisource]].
 +
 
 +
== Opere rese disponibili==
 +
 
 +
Le opere si trovano [https://archive.org/search.php?query=collection%3Aitwikisource%20sponsor%3A%22Wikimedia%20Italia%22 nella collezione itwikisource di Internet Archive] nonché [[commons:Special:Search/Salgari incategory:"Supported by Wikimedia Italia" incategory:"Scans from the Internet Archive"|in Wikimedia Commons]] ([[commons:Category:Books by Emilio Salgari scanned with Wikimedia Italian funds|categoria]]) e si possono rileggere dalle pagine indice:
 +
 
 +
*[[s:Indice:Salgari - Al polo australe in velocipede.djvu]]
 +
*[[s:Indice:Salgari - Gli scorridori del mare.djvu]]
 +
*[[s:Indice:Salgari - I naviganti della Meloria.djvu]]
 +
*[[s:Indice:Salgari - I solitari dell'Oceano.djvu]]
 +
*[[s:Indice:Salgari - Il Re dell'Aria.djvu]]
 +
*[[s:Indice:Salgari - Il re della montagna.djvu]]
 +
*[[s:Indice:Salgari - Il re della prateria.djvu]]
 +
*[[s:Indice:Salgari - Il tesoro del presidente del Paraguay.djvu]]
 +
*[[s:Indice:Salgari - Il treno volante.djvu]]
 +
*[[s:Indice:Salgari - L'Uomo di fuoco.djvu]]
 +
*[[s:Indice:Salgari - La Città dell'Oro.djvu]]
 +
*[[s:Indice:Salgari - La Costa d'Avorio.djvu]]
 +
*[[s:Indice:Salgari - La Sovrana del Campo d'Oro.djvu]]
 +
*[[s:Indice:Salgari - La Stella Polare.djvu]]
 +
*[[s:Indice:Salgari - La capitana del Yucatan.djvu]]
 +
*[[s:Indice:Salgari - La stella dell'Araucania.djvu]]
 +
*[[s:Indice:Salgari - Nel paese dei ghiacci.djvu]]
 +
*[[s:Indice:Salgari - Sul mare delle perle.djvu]]
 +
*[[s:Indice:Salgari - Un dramma nell'Oceano Pacifico.djvu]]
 +
 
 +
Ne è stata data [https://mailman.wikimedia.it/private/associazione/2018-October/078741.html notizia nella lista associazione].
 +
 
 +
L'elenco rende pressoché esaustiva la collezione delle opere di Salgari come visibili alla pagina [[s:Autore:Emilio Salgari]], con 105 testi per 100 titoli. Risultano mancanti solo due romanzi, non disponibili alla biblioteca nazionale centrale.
 +
 
 +
== Costi ==
 +
 
 +
A consuntivo, il primo lotto è costato 492,45 € e il secondo 566,65 € (i 70 € di differenza sono stati coperti da una donazione di Nemo). Dall'[https://catalogd.archive.org/metamgr.php?&w_identifier=Salgari*&w_collection=itwikisource*&w_sponsor=Wikimedia*&srt=updated&ord=desc&off=0&lim=50&fs_pages=on elenco delle opere] (richiede accesso a IA) risultano {{#expr:346+283+300+375+411+286+280+246+333+293+317+368+176+261+281+261+283+215}} pagine scansionate e caricate in Internet Archive.
 +
 
 +
Il costo medio imputatoci da Gap Srl (operatori delle riproduzioni di BNCF) è quindi di leggermente meno di 0,20 €/pagina. Tale importo è inferiore sia a 0,35 €/A3 sia a 0,25 €/A4 perché la maggior parte delle scansioni ci sono state tariffate come A3 per due facciate e quindi il costo è la metà di 0,35 € per ciascuna facciata nella maggior parte dei casi.
  
 
== Uso delle scansioni ==
 
== Uso delle scansioni ==
  
Come anticipato, non prevediamo di occuparci direttamente dell'uso a posteriori di queste opere. Vedi prossimi passi sotto.
+
Le immagini [https://tools.wmflabs.org/glamtools/glamorous.php?doit=1&category=Books_by_Emilio_Salgari_scanned_with_Wikimedia_Italia_funds&use_globalusage=1&show_details=1&show_details_limited=1 sono in uso nelle rispettive pagine di Wikisource] (oltre 5000 ad aprile 2019, simile al numero totale di pagine scansionate come da sopra).
 +
 
 +
Ad aprile 2019 risulta che le pagine principali dei primi volumi caricati hanno visite mensili nell'ordine delle centinaia, mentre i volumi più recenti sono nell'ordine delle decine. Nel dettaglio, usando MassViews su liste create manualmente, saranno note le visite alle pagine in namespace principale (oltre 3000 a marzo 2019 per [https://tools.wmflabs.org/massviews/?platform=all-access&agent=user&source=pagepile&target=18104&range=last-month&sort=views&direction=1&view=list il primo lotto]) e il numero di visite a tutte le pagine ([https://tools.wmflabs.org/massviews/?platform=all-access&agent=user&source=pagepile&target=18103&range=last-month&sort=views&direction=1&view=list idem]). I conteggi non sono disponibili in TreeViews [https://bitbucket.org/magnusmanske/glamtools/issues/67/treeviews-error-when-trying-to-list#comment-49686763 causa un baco] e similmente MassViews non conta i namespace diversi dal principale in Wikisource.
 +
 
 +
L'obiettivo di raggiungere 1000 visite mensili entro 6 mesi dal caricamento è ampiamente superato.
 +
 
 +
Il [https://tools.wmflabs.org/pageviews/?project=it.wikisource.org&platform=all-access&agent=user&start=2018-01&end=2019-10&pages=Autore:Emilio_Salgari numero di visite alla pagina dell'autore] appare invece costante nell'ordine delle 300-400 al mese per i mesi fuori picco, come all'inizio del 2018 prima di questo progetto. Ciò suggerisce che i visitatori arrivano alle pagine dei libri senza passare da quella dell'autore e che le visite aggiuntive alle opere non percolano necessariamente a pagine vicine come quella dell'autore. Del resto non era un nostro obiettivo aumentarle. Nel frattempo le [https://tools.wmflabs.org/pageviews/?project=it.wikipedia.org&platform=all-access&agent=user&start=2017-11&end=2019-10&pages=Emilio_Salgari visite alla voce in Wikipedia] sembrano scese e [https://tools.wmflabs.org/pageviews/?project=it.wikiquote.org&platform=all-access&agent=user&start=2017-11&end=2019-10&pages=Emilio_Salgari in Wikiquote] sembrano cresciute, ma c'è una certa volatilità, quindi è difficile dimostrare alcuna causalità o assenza di correlazione.
  
Le statistiche saranno verificate dopo alcuni mesi, come indicato.
+
Alcuni dei volumi sono stati "divorati" durante le iniziative di rilettura (o la rilettura del mese o il compleanno di Wikisource), ma diversi volumi restano disponibili per la rilettura in classe o all'interno di altri progetti scolastici, come ci eravamo prefissi, quindi anche questo scopo va considerato raggiunto.
  
== Prossimi passi ==
+
== Passi successivi al progetto ==
  
Sarebbe opportuno procedere cogli altri libri mancanti di Salgari, visto che il costo è analogo e il processo è ormai oliato, quindi potrebbe ripagare di piú l'investimento di tempo fatto da Alex.
+
Sarà interessante vedere in futuro l'uso dei libri nelle iniziative di rilettura e scolastiche, come ipotizzato nel piano. L'associazione ha mostrato interesse e la comunità ha inserito alcune delle opere fra le riletture consigliate.
  
È importante ovviamente usare i libri nelle iniziative di rilettura e scolastiche, come ipotizzato nel piano. Ne discuteremo nelle liste associative come scritto sopra.
+
[[Categoria:Programma microgrant - Relazioni 2018]]

Versione attuale delle 14:44, 5 ago 2022

Pubblicazione delle scansioni

Per mia fortuna, l'ineffabile Alex Brollo si è buttato a capofitto su questo blocco di Salgari appena viste le immagini. Ha fatto lui tutto il lavoro:

In particolare, Alex

  1. ha suddiviso le immagini (ogni foto contiene due pagine) e le ha salvate in bianco e nero (con ScanTailor),
  2. poi le ha unite in PDF con image2pdf per comodità di caricamento in Internet Archive,
  3. usando IA-upload ha caricato il DjVu in Commons,
  4. ha eseguito il "match & split" in Wikisource.

La procedura è stata delineata con maggior precisione in s:Utente:Alex brollo/Resoconto di una importazione 2018.

BNCF non ci fornisce i TIFF a questo prezzo, ma riducendo le immagini in bianco e nero l'OCR viene abbastanza bene. Mantenendo i colori, invece, l'OCR non dava quasi nessun risultato, anche per via del rumore di fondo e delle pagine non dritte. È stato considerato anche unpaper, ma alla fine è bastato ScanTailor.

Alex ha poi creato le pagine indice e le pagine in namespace principale e cominciato qualche rilettura. Nel far ciò ha scoperto qualche pagina mancante, che ho potuto chiedere e ottenere prontamente da Gap/BNCF.

Il 27 dicembre 2018 abbiamo ricevuto le ulteriori scansioni del secondo lotto. Entro gennaio 2019, tutte le scansioni del secondo lotto sono state caricate su IA e su Commons e sono state create su Wikisource le pagine Indice relative. Il processo di proofreading è cominciato (per le opere già presenti come testi senza scansioni, è già stato effettuato il Match and Split).

Le scansioni hanno confermato la veridicità delle schede di catalogo per quanto riguarda le illustrazioni, cioè che erano fuori testo e in fogli a parte (c. di tav. o "carte di tavole" in gergo). È stato quindi possibile "sbiancare" tali pagine in Wikimedia Commons senza ridurre l'integrità delle immagini a fronte.

Per alcuni dettagli tecnici vedi questa pagina su Wikisource.

Opere rese disponibili

Le opere si trovano nella collezione itwikisource di Internet Archive nonché in Wikimedia Commons (categoria) e si possono rileggere dalle pagine indice:

Ne è stata data notizia nella lista associazione.

L'elenco rende pressoché esaustiva la collezione delle opere di Salgari come visibili alla pagina s:Autore:Emilio Salgari, con 105 testi per 100 titoli. Risultano mancanti solo due romanzi, non disponibili alla biblioteca nazionale centrale.

Costi

A consuntivo, il primo lotto è costato 492,45 € e il secondo 566,65 € (i 70 € di differenza sono stati coperti da una donazione di Nemo). Dall'elenco delle opere (richiede accesso a IA) risultano 5315 pagine scansionate e caricate in Internet Archive.

Il costo medio imputatoci da Gap Srl (operatori delle riproduzioni di BNCF) è quindi di leggermente meno di 0,20 €/pagina. Tale importo è inferiore sia a 0,35 €/A3 sia a 0,25 €/A4 perché la maggior parte delle scansioni ci sono state tariffate come A3 per due facciate e quindi il costo è la metà di 0,35 € per ciascuna facciata nella maggior parte dei casi.

Uso delle scansioni

Le immagini sono in uso nelle rispettive pagine di Wikisource (oltre 5000 ad aprile 2019, simile al numero totale di pagine scansionate come da sopra).

Ad aprile 2019 risulta che le pagine principali dei primi volumi caricati hanno visite mensili nell'ordine delle centinaia, mentre i volumi più recenti sono nell'ordine delle decine. Nel dettaglio, usando MassViews su liste create manualmente, saranno note le visite alle pagine in namespace principale (oltre 3000 a marzo 2019 per il primo lotto) e il numero di visite a tutte le pagine (idem). I conteggi non sono disponibili in TreeViews causa un baco e similmente MassViews non conta i namespace diversi dal principale in Wikisource.

L'obiettivo di raggiungere 1000 visite mensili entro 6 mesi dal caricamento è ampiamente superato.

Il numero di visite alla pagina dell'autore appare invece costante nell'ordine delle 300-400 al mese per i mesi fuori picco, come all'inizio del 2018 prima di questo progetto. Ciò suggerisce che i visitatori arrivano alle pagine dei libri senza passare da quella dell'autore e che le visite aggiuntive alle opere non percolano necessariamente a pagine vicine come quella dell'autore. Del resto non era un nostro obiettivo aumentarle. Nel frattempo le visite alla voce in Wikipedia sembrano scese e in Wikiquote sembrano cresciute, ma c'è una certa volatilità, quindi è difficile dimostrare alcuna causalità o assenza di correlazione.

Alcuni dei volumi sono stati "divorati" durante le iniziative di rilettura (o la rilettura del mese o il compleanno di Wikisource), ma diversi volumi restano disponibili per la rilettura in classe o all'interno di altri progetti scolastici, come ci eravamo prefissi, quindi anche questo scopo va considerato raggiunto.

Passi successivi al progetto

Sarà interessante vedere in futuro l'uso dei libri nelle iniziative di rilettura e scolastiche, come ipotizzato nel piano. L'associazione ha mostrato interesse e la comunità ha inserito alcune delle opere fra le riletture consigliate.