UTF

UTF - tai tokia raidžių koduotė, o jai pavadinti skirta santrumpa reiškia "Unicode Transformation Format", kas išties nieko nereiškia, o tiesiog sugalvota vardan to, kad kaip nors skirtųsi nuo kitų pavadinimų. Šiais laikais UTF yra tapęs ne visuotiniu, bet gana paplitusiu standartu, kuris po truputį konkuruoja su ASCII, nors nebūtinai visada sėkmingai.

Problema gi buvo tokia, kad pirmos ASCII tipo koduotės buvo vos 7 bitų, t.y., 127 simbolių ilgio. Tai tenai kai visokius simbolius, skaitmenis ir raides sudėjo, tai paaiškėjo, kad visokioms nacionalinėms raidėms nebeliko vietos, nes liko tik angliškos raidės. Tai tada atsirado 8 bitų tipo ASCII, pagerinta taip, kad sutilptų dar 127 papildomi simboliai. Tai tuos sutalpinus, paaiškėdavo, kad tenka rinktis - arba pseudografika, arba nacionaliniai simboliai. O tuos nacionalinius simbolius sutalpinus vienai kalbai, jau nebelikdavo vietos kitai kalbai. Tai žodžiu, galų gale atsirado melejonas skirtingų lokalių koduočių, o paskui visi užsipiso kariaut.

Tai tada galų gale susigalvojo kažkas, kad galima gi ne 8 bitų koduotę turėt, o 16 bitų, ir tada galima bus sutalpinti visas raides, simbolius ir netgi hieroglifus. Bet kartu galima padaryti tą koduotę taip, kad jei nėra specialaus reikalo, tai kad veiktų ir 8 bitai, o išsiplėstų pagal poreikį.

Žodžiu, gavosi tokios pora koduočių - UTF-8, kur vienai raidei ar simboliui skiriami yra 8 bitai, bet jei yra poreikis, tai praplečiami iki 16 bitų ar 2x15 bitų, kur kažkaip nerišliai gaunasi ne tai 30 bitų, ne tai 31 bitas, bet tikri 32 bitai tai jau nebesigauna. Dar yra panaši UTF-16 koduotė, kur išsyk viskas praplėsta iki tų 2x15, bet anoji naudojama tik ten, kur naudojami hieroglifai.

Tai dabar visokios problemos kyla, nes programinės bibliotekos tai visos visur visada kurtos buvo kokiai nors ASCII koduotei ar kokiai nors panašiai, o tenai tik 8 bitai. Tai paskui kai į tokias teksto eilutes įdedama kas nors UTF koduotėje, tai gaunasi, kad paskui programos supranta pavienę UTF raidę kaip dvi paprastas raides. Tai paskui rodo vietoje raidžių kažkokius kringelius.

UTF

Naršymo meniu

Paieška