Differenze tra le versioni di "Microgrant/2025/Estrazione lemmi e significati dal "Vocabolario della lingua italiana Zingarelli, 1922""

Versione attuale delle 21:19, 15 mar 2025

stato: approvata

Microgrant

Estrazione lemmi e significati dal "Vocabolario della lingua italiana Zingarelli, 1922"

data d'inizio: 25 gennaio 2025

data di termine: 1,5 mesi dall'approvazione del grant (stima: 30 aprile 2025)

proponente: CristianCantoro

finanziamento richiesto: 700,00 €

finanziamento concesso: 700,00 €

note di spesa: progetto consegnato il 15 marzo 2025

relazione finale: Relazione finale

Scopo del progetto

Secondo le statistiche sui lessemi ad oggi (gennaio 2025) su Wikidata ci sono più di 60.000 lessemi italiani per i quali sono però specificati solamente 21.000 significati.

La tabella seguente riporta il dettaglio del numero di lessemi distinti rispetto al numero di significati:

N° significati	N° lessemi (distinti)
0	46902
1	14817
2	1771
3	471
4	154
5+	137

(fonte dati: conteggio numero di lessemi distinti per numero di significati, lista dei lessemi con almeno 5 significati (137 risultati))

Lo scopo di questo progetto è finanziare lo sviluppo di uno script per ottenere un'estrazione dei significati dei vari lemmi del Vocabolario delle lingua italiana Zingarelli del 1922 in maniera strutturata per caricarli su Wikidata.

Con questi dati strutturati si potrà:

aggiungere i significati mancanti ai lessemi italiani su Wikidata;
trascrivere il Vocabolario su Wikisource.

Organizzazione del progetto

Attività

Seppure sia disponibile su Internet Archive una estrazione del testo tramite OCR (formato hOCR) eseguita con ABBYY FineReader, la qualità dell'estrazione non è sufficiente da poter estrarre i significati delle parole.

Pertanto è necessario:

fare un lavoro dedicato per estrarre tramite OCR un testo di qualità maggiore;
processare il testo ottenuto dall'OCR per ottenere dei dati strutturati per agevolare l'import in Wikidata.

Per esempio questo è lo stato attuale dell'OCR per il lemma addensare (pagina 16 del djvu)

addensare,a+F^-o:
re.  |  rfl.  Affittire  della  folla.  Il -amento,  m.  Modo  e  atto  dell'ad- densare. ||-ato,  pt.,ag.  Fatto  den- so. |  Ammucchiato.  ||-atissimo, sup.  ||  "-azione,  f.  Azione  del- l'addensare.

Lo scopo del progetto è ottenere dei dati strutturati di questo tipo:

{
    "lemma": "addensare",
    "ocr": "addensare, a. Fare denso, | Condensa-re. | rfl. Affittire della folla. || -amento, m. Modo e atto dell'ad-densare. || -ato, pt.,ag. Fatto denso. | Ammucchiato. ||-atissimo, sup. || -azione, f. Azione del-l'addensare.",
    "significati": [
        "1. Far denso.",
        "2. Condensare."
    ],
    "derivati": [
        {
            "modificatore": "-amento",
            "significati": [
                "1. Modo e atto dell'addensare."
            ]
        },
        {
            "modificatore": "-ato",
            "significati": [
                "1. Fatto denso.",
                "2. Ammucchiato."
            ]
        },
        {
            "modificatore": "-atissimo"
        },
        {
            "modificatore": "-azione",
            "significati": [
                "1. Azione dell'addensare."
            ]
        }
    ]
}

Risorse

Realizzazione script (stimate 50 h di lavoro): 650 €
Accesso ad API/servizi di OCR: 50 €

TOTALE: 700 €

Risultati attesi

Il codice sviluppato quale parte del progetto verrà rilasciato con una licenza libera. ( Fatto, repository GitLab ocr-it-zingarelli-1922)
Il file con il testo del Vocabolario della Lingua Italiana ottenuto ottenuto tramite OCR. ( Fatto, results/ocr.txt)
I file JSON contenenti i dati strutturati dei lessemi e dei significati estratti dal vocabolario. ( Fatto, ocr-it-zingarelli-1922/results)

NOTA: la parte relativa all'import dei lemmi su Wikidata va discussa con la comunità di Wikidata e fa fatta apposita richiesta prima di un import massiccio. L'import dei dati su Wikidata non fa parte di questa richiesta che è relativa solo al estrazione e al prepocessing dei dati necessari per l'import. Analogo discorso vale per la trascrizione del Vocabolario su Wikisource.

Persone coinvolte

CristianCantoro (responsabile del progetto)
1 sviluppatore

Sostegno al progetto e commenti

Figo! asd --Valerio Bozzolan (discussioni) 10:47, 4 feb 2025 (CET)
...

@@ Riga 1: / Riga 1: @@
 {{Riquadro microgrant
-| stato = richiesta
+| stato = approvata
 | descrizione = Estrazione lemmi e significati dal "Vocabolario della lingua italiana Zingarelli, 1922"
 | inizio = 25 gennaio 2025
@@ Riga 6: / Riga 6: @@
 | proponente = [[Utente:CristianCantoro|CristianCantoro]]
 | budget = 700,00 €
-| budget approvato =
+| budget approvato = 700,00 €
-| note =
+| note = progetto consegnato il '''15 marzo 2025'''
 }}
@@ Riga 98: / Riga 98: @@
 === Risultati attesi ===
-* Il codice sviluppato quale parte del progetto verrà rilasciato con una licenza libera.
+* Il codice sviluppato quale parte del progetto verrà rilasciato con una licenza libera. ({{fatto}}, repository GitLab <code>[https://gitlab.com/lexeme-game/ocr-it-zingarelli-1922 ocr-it-zingarelli-1922]</code>)
-* Il file con il testo del Vocabolario della Lingua Italiana ottenuto ottenuto tramite OCR.
+* Il file con il testo del Vocabolario della Lingua Italiana ottenuto ottenuto tramite OCR. ({{fatto}}, <code>[https://gitlab.com/lexeme-game/ocr-it-zingarelli-1922/-/blob/main/results/ocr.txt?ref_type=heads results/ocr.txt]</code>)
-* I file JSON contenenti i dati strutturati dei lessemi e dei significati estratti dal vocabolario.
+* I file JSON contenenti i dati strutturati dei lessemi e dei significati estratti dal vocabolario. ({{fatto}}, <code>[https://gitlab.com/lexeme-game/ocr-it-zingarelli-1922/-/tree/main/results?ref_type=heads ocr-it-zingarelli-1922/results]</code>)
@@ Riga 110: / Riga 110: @@
 == Sostegno al progetto e commenti ==
+* Figo! asd --[[Utente:Valerio Bozzolan|Valerio Bozzolan]] ([[Discussioni utente:Valerio Bozzolan|discussioni]]) 10:47, 4 feb 2025 (CET)
 *...