Уникод

Уникод
	Логото на Уникодниот конзорциум
Именувања	Универзален збир на кодни знаци (UCS)
Јазик(ци)	Меѓународен
Стандард	Уникоден стандард
Кодирачки формати	UTF-8, UTF-16, GB18030; поретко во употреба: UTF-32, BOCU, SCSU
Претходно	ISO 8859, и други
	п; р; у;

Уникод е стандард во компјутерската индустрија за доследно кодирање, претставување и ракување со текстови, изразени во повеќето од светските системи за пишување. Најновата верзија содржи збирка од 136.755 знаци, кои опфаќаат 139 современи и историски скрипти, како и повеќе сетови од симболи. Стандардот Уникод се одржува во врска со ISO/IEC 10646, и обата се код-за-код идентични.

Кратки факти Именувања, Јазик(ци) ...

Затвори

Уникод стандардот се состои од колекција на код графици за визуелна презентација, метод на кодирање и колекција на стандардни знаци за кодирање, колекција од референтни датотеки со податоци и голем број поврзани елементи, како што се својствата на знакот, правилата за нормализација, декомпозицијата, споредувањето, рендерирањето и двонасочниот ред на прикажување (за правилно прикажување на текст кој ги содржи и двата вида на системи за пишување, од десно кон лево системот за пишување, како што е арапското и хебрејското и од лево кон десно системот за пишување). Од јуни 2017 година, најновата верзија е Уникод 10.0. Стандардот го одржува Уникод конзорциумот.^[1]

Успехот на Уникод во обединувањето на колекциите од знаци, довел до негова широка распространетост и примарна употреба во интернационализацијата и локализацијата на компјутерскиот софтвер. Стандардот бил имплементиран во многу нови технологии, вклучувајќи ги и модерните оперативни системи, XML, Јава (и други програмски јазици) како и .NET Framework.

Уникодот може да биде имплементиран со различни знаци за кодирање. Уникод стандардот ги дефинира UTF-8, UTF-16 и UTF-32, како и неколку други кодирања кои се во употреба. Најчесто користени кодирања се UTF-8, UTF-16 и UCS-2, претходникот на UTF-16.

UTF-8, доминантно користен од мрежните места (преку 90%),^[2] користи еден бајт за првите 128 кодни точки, и најмногу до 4 бајти за другите знаци.^[3] Првите 128 Уникод точки се ASCII знаци, што значи дека секој ASCII текст, е исто така и UTF-8 текст.

UCS-2 користи два бајта (16 бита) за секој знак, но може да ги кодира првите 65.536 кодни точки, т.н. Основно Повеќејазично Ниво (ОПН). Со 1.114.112 кодни точки на 17 нивоа што се можни, и со над 137.000 кодни точки дефинирани досега, многу Уникод знаци се надвор од дофатот на UCS-2. Затоа UCS-2 е застарен, иако сè уште се користи во софтверот. UTF-16 го проширува UCS-2, користејќи го истото 16-битно кодирање како и UCS-2 за Основното Повеќејазично Ниво и 4-бајтно кодирање за другите нивоа. Сè додека не содржи кодни точки во задржаниот опсег U+0D800-U+0DFFF, UCS-2 текстот е важечки UTF-16 текст.

UTF-32 (исто така се нарекува и UCS-4) користи четири бајти за секој знак. Како и UCS-2, бројот на бајти по знак е фиксен, олеснувајќи го индексирањето на знаците; но за разлика од UCS-2, UTF-32 може да ги кодира сите Уникод кодни точки. Меѓутоа, бидејќи секој знак користи четири бајти, UTF-32 зема значително повеќе простор во однос на другите кодирања, и не е широко користен.

[1]

[2]

[3]