Pillole di Unicode

Spread the love

Unicode associa un numero univoco ad ogni carattere,
indipententemente dalla piattaforma,
indipententemente dal programma,
indipententemente dalla lingua.

 

I caratteri prima di Unicode

Fondamentalmente i computer gestiscono solo numeri. Essi memorizzano lettere ed altri caratteri assegnando un numero ad ognuno di essi. Prima che Unicode fosse inventato, esistevano centinaia di sistemi diversi, chiamati codifiche (encodings), per assegnare questi numeri. Queste prime codifiche di caratteri erano limitate e non contenevano abbastanza caratteri per coprire tutte le lingue del mondo. Anche per una singola lingua come l’inglese, un’unica codifica non era adeguata per descrivere tutte le lettere, segni di interpunzione e simboli tecnici di uso comune.

Le prime codifiche di caratteri inoltre confliggevano le une con le altre. Vale a dire, due codifiche potevano utilizzare lo stesso numero per due caratteri diversi o, viceversa, due numeri diversi per codificare lo stesso carattere. Quindi, quando i dati passavano da un computer all’altro o tra diversi sistemi di codifica, i dati rischiavano di venire corrotti.

I caratteri Unicode

Unicode ha cambiato tutto questo!

Lo Standard Unicode associa un numero univoco ad ogni carattere, indipendentemente dalla piattaforma, dal dispositivo, dall’applicazione o dalla lingua che vengono usati. È stato adottato da tutti i produttori di software moderni ed ora consente ai dati di essere trasportati attraverso molte differenti piattaforme, dispositivi e applicazioni senza corruzione. Il supporto di Unicode costituisce il fondamento per la rappresentazione di lingue e simboli in tutti i principali sistemi operativi, motori di ricerca, browser, computer portatili e smartphone – più Internet ed il World Wide Web (URLs, HTML, XML, CSS, JSON, etc.). Supportare Unicode è il modo migliore per implementare lo standard ISO/IEC 10646.

Lo standard ISO/IEC 10646

L’Insieme Universale di Caratteri Codificati [Universal Coded Character Set (UCS)] è un insieme standard di caratteri definiti dallo International Standard ISO/IEC 10646, Information technology — Universal Coded Character Set (UCS) (più successive modifiche), che è la base di di molte codifiche caratteri. L’ultima versione contiene oltre 136.000 caratteri astratti, ciascuno identificato con un nome non ambiguo e un numero intero detto il suo punto codice (code point). Questo standard ISO/IEC 10646 è manutenuto in congiunzione con lo standard Unicode ed entrambi sono identici codice per codice.

Ma ci sono delle differenze tra ISO/IEC 10646 e Standard Unicode e riguardano più l’ambito applicativo.

ISO/IEC 10646 è fondamentalmente una tabella, mentre Unicode si occupa anche delle regole da rispettare per eseguire il confronto di stringhe (collation), regole per la pronuncia dipendente dal contesto (text normalization) e altri aspetti.

[Wikipedia]

L’avvento dello Standard Unicode e la disponibilità di strumenti che lo supportano sono tra le più importanti tendenze della tecnologia software globale.

Sul Consorzio Unicode

Il consorzio Unicode è un’organizzazione no profit, esentasse negli USA (501(c)(3)) che è stata fondata per sviluppare, estendere e promuovere l’uso dello standard Unicode e i relativi standard di globalizzazione che specificano la rappresentazione del testo in prodotti software moderni e altri standard.

Il Consorzio viene supportato finanziariamente attraverso abbonamenti e donazioni. L’appartenenza al Consorzio Unicode è aperto alle organizzazioni e agli individui che, ovunque nel mondo, supportino lo standard Unicode e desiderino partecipare nella sua estensione ed implementazione. Tutti sono invitati a contribuire al supporto dell’importante lavoro del Consorzio facendo una donazione.

Maggiori informazionisi trovano sul sito di Unicode.

Lascia un commento

Your email address will not be published.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.