Corpus del Español del XXI secolo. Oltre 4 milioni di forme incorporate

Il numero di documenti disponibili online è cresciuto nel tempo in modo quasi esponenziale, mentre la nostra capacità di lettura e di analisi è rimasta praticamente immutata.  L’analisi e l’estrazione di informazioni dai documenti può avvenire in modo automatico, grazie ai principi dell’Intelligenza artificiale, secondo logiche e schemi mentali propri dell’essere umano: l’uomo analizza e comprende il significato di una frase, facendone l’Analisi Grammaticale, Logica, Semantica e del Sentiment (indica elaborazione del linguaggio naturale relativo all’identificazione ed estrazione di opinioni dal testo).

L’ automatizzazione di tale processo di analisi, costruzione e di ragionamento di una lingua è affidato alla semantica computazionale, ed è in continua evoluzione di pari passi con la lingua naturale, come dimostra l’Accademia Reale Spagnola che, in collaborazione con l’Associazione delle Accademie di Lingua Spagnola (ASALE), ha appena presentato l’ aggiornamento del Corpus del Español del XXI secolo (CORPES XXI).

L’ultima versione dello strumento, 0.93, ha più di 316.000 documenti, che si sommano a poco più di 333 milioni di moduli ortografici, da testi scritti e trascrizioni di testo orale. Rispetto alla versione precedente, pubblicata a maggio 2020, rappresenta un aumento di oltre 21 milioni di moduli.

Novità della versione 0.93

Più di quattro milioni e mezzo delle forme incorporate in questo aggiornamento sono trascrizioni di testi orali (programmi radiofonici e televisivi, interviste ai media, YouTube, ecc.). Alcuni file offrono il suono allineato corrispondente alla trascrizione; in altri è possibile scaricare il file audio, oltre a visualizzare il video, in base alla fonte del testo sorgente.

Per quanto riguarda il blocco della narrativa (romanzi, sceneggiature cinematografiche, storie, opere teatrali), le forme corpes superano i 93 milioni, mentre quelle contenute in testi di libri di saggistica e periodici (scienze sociali, salute, politica, arti, tecnologia…) sono vicine ai 238 milioni. Il testo dei libri coinvolge quasi 166 milioni di moduli; periodici sono rappresentati con circa 158 milioni. Altri sei e mezzo provengono da blog, interviste digitali, social media e varie.

In termini di distribuzione del tempo, il numero di testi prodotti tra il 2016 e il 2020 aumenta, con poco più di 42 milioni di moduli in questa versione. Per lustri, il peso maggiore in questa versione, ancora provvisoria, ricade sul segmento 2006-2010, con oltre 107 milioni di forme; più di 100 milioni corrispondono a forme prodotte tra il 2001 e il 2005; e, dal 2011 al 2015, ha raggiunto quasi 82 milioni di forme. Il saldo previsto tra Spagna e America (30%-70%) si pone: le forme corrispondenti ai testi generati in Spagna rappresentano poco più del 30% e quelle in America superano i 217 milioni di moduli. Inoltre, CORPES contiene testi provenienti dalle Filippine e dalla Guinea Equatoriale.

Strumento linguistico fondamentale

Il Corpus del Español del Siglo XXI (CORPES XXI) è, come il CREA, un corpus di riferimento. In linguistica, per corpus s’intende la più ampia e ordinata possibile collezione di testi. I corpus sono comunemente usati per comprendere il contesto e le proprietà di parole, espressioni e costrutti da usi registrati effettivi. Date le dimensioni, il corpus deve essere in formato elettronico.

Un corpus generale (detto di riferimento) ha come scopo fondamentale quello di servire ad ottenere le caratteristiche globali presentate da una lingua in un particolare punto della sua storia. Nel caso dell’attuale spagnolo, il corpus deve contenere testi di ogni tipo e anche di tutti i paesi che compongono il mondo ispanico.

 

Per accedere a CORPES XXI, cliccare qui.

Potrebbero interessarti anche...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.