RačunalnikiInformacijska tehnologija

Kodiranje "Unicode": standard za kodiranje znakov

Vsak uporabnik interneta v poskusu, da ustanovijo enega ali drugega od svoje funkcije vsaj enkrat videl na zaslonu pisno v latinici beseda "Unicode". Kaj je to, boste izvedeli ob branju tega članka.

opredelitev

Kodiranje "Unicode" - kodiranje znakov standarda. je predlagal, da ga Unicode Inc. neprofitne organizacije leta 1991. Standard je zasnovan tako, da bi skupaj čim večje število različnih vrst znakov v dokumentu. Stran, ki je bila ustanovljena na podlagi le-teh, lahko vsebuje črke in znake iz različnih jezikov (iz ruščine v korejščini) in matematičnih znakov. V tem primeru vse znake v nabor znakov se prikažejo brez kakršnih koli težav.

Razlogi za oblikovanje

Nekoč, davno pred pojavom enotnega sistema "Unicode" kodiranje izbrani glede na želje avtorja dokumenta. Iz tega razloga, pogosto za branje dokumenta, je bilo treba uporabiti različne tabele. Včasih je potrebno storiti večkrat, kar močno otežuje življenje povprečnega uporabnika. Kot je bilo že omenjeno, je bila rešitev tega problema je leta 1991 povabil v Unicode Inc. organizacije neprofitno ponuditi novo vrsto kodiranja znakov. Zasnovana je bila za združevanje zastarel in različne standarde. "Unicode" - kodiranje da ozvolila doseči nepredstavljivo v času: ustvariti orodje, ki podpira ogromno število znakov. Rezultat presegel številna pričakovanja - so bili dokumenti, hkrati vsebujejo tako angleško in rusko besedilo, latinščino in matematičnih izrazov.

Toda oblikovanje enotnega kodiranja pred katerim je treba rešiti številne težave, ki so nastale zaradi veliko različnih standardov, ki že obstajajo v tistem času. Najpogostejši med njimi:

  • Elvish pisanje, ali "žlobudranje";
  • omejitve nabor znakov;
  • Problem transformacije kodiranja;
  • font podvajanje.

Mali zgodovinski excursus

Predstavljajte si, da je na dvorišču 80.. Računalniška strojna oprema ni tako pogosta in ima obliko drugačno od današnjega. Medtem ko vsak OS je edinstven in rafinirani posebne potrebe vsakega navdušenca je. Potreba po izmenjavi informacij se pretvori v dodatno predelati vse. Poskus, da bi prebral dokument, ki ga drug operacijski sistem ustvarili, pogosto prikazuje nenavaden niz znakov, in igra se začne s kodiranjem. To ni vedno to storiti hitro, in včasih je potrebno dokument ni mogoče odpreti v šestih mesecih, in tudi kasneje. Ljudje, ki pogosto izmenjujejo informacije, ustvarjajo zase pretvorbeno tabelo. In potem delajo na njih razkriva zanimivo podrobnost: potreba, da jih ustvarili v dveh smereh, "iz mojih v vaš" naprej in nazaj. Naredite banalno inverzija računalništvo stroj ne more, za to v desnem stolpcu vira, in levo - rezultat, ne pa obratno. Če vidite, da je treba uporabljati nobenih posebnih znakov v dokumentu, ki jih je bilo treba najprej dodali, in nato še eno, in razložiti partnerju, kaj je treba storiti, da teh znakov ne postanejo "žlobudranje". In ne smemo pozabiti, da je za moral vsak kodiranje za razvoj in izvajanje lastne pisave, ki so pripeljali do ogromnega števila kopij v OS.

Predstavljajte si, nadalje, da so pisave na strani, boste videli 10 kosov enake Times New Roman z majhno opombo: za UTF-8, UTF-16, ANSI, UCS-2. Zdaj razumete, da je bil razvoj univerzalnih standardov nujno?

"Ustanovni očetje ustvarjalcev"

Začetki ustanovitve Unicode, ki se je pokazala leta 1987, ko Dzho Bekker od Xerox, skupaj z Lee Collins in Mark Davis iz Apple začel raziskave na področju praktičnega oblikovanju univerzalnega nabora znakov. Avgusta 1988, Dzho Bekker objavila osnutek predloga za oblikovanje 16-bitni večjezični mednarodni kodirni sistem.

Nekaj mesecev kasneje je bila delovna skupina Unicode razširil tudi Ken Whistler in Mike Kernegana od RLG, Glenn Rayt za Sun Microsystems in več drugih strokovnjakov, ki omogoča dokončanje dela na predhodnem oblikovanju skupne kodiranja standard.

splošen opis

Unicode, ki temelji na konceptu simbola. Pod ta opredelitev nanaša na abstrakten pojav, ki obstaja v določeni obliki pisanja in realizirano skozi grafemsko (njihovi "portreti"). Vsak znak je podana v "Unicode" edinstveno kodo, ki pripadajo določenim standardom enoto. Npr grafem B je tudi v angleškem in ruskem abecede, vendar ustreza Unicode 2 različnih znakov. So predmet preoblikovanja v male črke, t. E., od katerih vsaka opisuje ključno bazo podatkov, nabor lastnosti in polno ime.

Prednosti Unicode

Iz drugih sodobnikov kodirajo "Unicode" Obstaja ogromno zalogo znakov za "šifriranje" znakov. Dejstvo, da so imeli njegovi predhodniki 8 bitov, ki je podprta s 28 znaki, vendar je nova zasnova je bila že 216 znakov, da je to velik korak naprej. To je omogočilo kodiranje skoraj vse obstoječe in skupne abeced.

S prihodom "Unicode" ni več treba uporabljati pretvorbene tabele: kot enotnega standarda je samo izniči potrebo po njih. Prav tako so potonila v pozabo, in "žlobudranje" - enoten standard, ki jim ni mogoče, pa tudi pravilo, da je treba nujno ustvariti podvojenih pisav.

Razvoj Unicode

Seveda, napredek ni na mestu, in ker je prva predstavitev minilo že 25 let. Vendar pa je nabor znakov "unicode" trmasto ohranja svoj položaj v svetu. V mnogih pogledih je bilo to omogočeno zaradi dejstva, da je postala preprosto izvajati in se je razširil, da so priznane razvijalce lastniške (plača) in odprtokodne programske opreme.

Ne smemo verjeti, da je danes vidimo isto oznako "Unicode" kot četrt stoletja nazaj. V tem trenutku ga je zamenjalo različica 5.h.h, in število kodiranih simbolov se je povečalo na 231. V zvezi z možnostjo uporabe večjo stopnjo znamke zavrnil, da še vedno zagotavljati podporo Unicode-16 (kodiranje, kjer je najvišji znesek njihovo omejeno število 216). Od svojih začetkov pa do različice 2.0.0 je "Standard Unicode" povečalo število znakov, ki jih je vključenih skoraj 2-krat. priložnosti in nadaljevanje rasti v prihodnjih letih. Za različico 4.0.0 je že, da je treba povečati standard sam, in da je bilo storjeno. Kot rezultat, je "Unicode" našel obliko, v kateri smo jo poznamo danes.

Kaj je še v Unicode?

Poleg tega, da je velika, stalno posodablja s številom znakov, "Unicode" -Encoding informacije besedilo je še ena uporabna lastnost. To je tako imenovani normalizacija. Namesto da se pomaknete skozi celoten dokument znak za znakom, in nadomestiti ikone korespondenčne tabele, uporabite enega od obstoječih algoritmov normalizacije. Kaj je to?

Namesto zapravljanja virov računalnika na rednem pregledu istega značaja, ki je lahko podobno kot v različnih pisavah, s posebnim algoritmom. To vam omogoča, da na podobne simbole poseben stolpec lookup tabelo in se uporablja že za njimi, ne znova in znova, da še enkrat preverite vse podatke.

Takšni algoritmi se razvijajo in izvajajo štiri. Vsaka konverzija poteka po strogo določen načelo, ki se razlikuje od drugega, tako da pokličete koli od njih ni najbolj učinkovito. Vsak zasnovana za posebne potrebe, je bil vključen in uspešno uporablja.

standard razširjanje

V 25 letih svoje zgodovine kodiranje "UNICODE" Prejel sem verjetno najbolj razširjena na svetu. V skladu s tem standardom se prilagodi tako, programov in spletnih strani. Razpon uporabe lahko pomeni, da Unicode za več kot 60% internetnih virov sedaj uporablja.

Zdaj, veste, ko se je prikazala "Unicode" standarda. Kaj to pomeni, da tudi vi veste, in biti sposoben ceniti celoten pomen izuma, ki ga je skupina strokovnjakov Unicode Inc. Pred več kot 25 leti.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sl.birmiss.com. Theme powered by WordPress.