Codifica dei testi
Da Wikipedia, l'enciclopedia encyclopedia
Per codifica del testo s'intende la rappresentazione digitale di un testo.
I testi sono strutture molto complesse, contenenti informazioni articolate su più livelli: dalle sequenze di caratteri che si combinano per formare le parole a strutture linguistiche astratte che legano elementi al di là del contesto della singola frase. I computer non possiedono quelle conoscenze e competenze che ci permettono di accedere con facilità ed immediatezza a questi molteplici livelli di contenuto, sono in grado solo di visualizzare sequenze di codici binari: dovremo perciò predisporre il testo affinché il calcolatore possa cogliere i vari tipi d'informazione in esso contenuti.
Inoltre va tenuto presente che i corpora -ovvero collezioni di testi digitali- costituiscono oggi la prima fonte di dati della Linguistica Computazionale: non è difficile dunque intuire l'importanza della codifica ai fini di questa disciplina e di altre ad essa attinenti.
Nell'operazione possiamo distinguere due livelli distinti: a) la rappresentazione di ciascun carattere alfanumerico componente il testo nella forma di un codice binario; b) la rappresentazione della organizzazione strutturale del testo. Di conseguenza, parleremo di codifica di livello zero e di codifica di alto livello.