Новини високих технологій
» » Вільна таблиця символів Юнікоду

Вільна таблиця символів Юнікоду

12-03-2017, 18:31
4 196
Unicode - це міжнародний стандарт кодування символів, що дозволяє одноманітно відображати тексти на будь-якому комп'ютері в світі, незалежно від використовуваного на ньому системного мови.

Основи

Щоб зрозуміти, для чого потрібна таблиця символів Юнікоду, давайте спочатку розберемося в механізмі відображення тексту на екрані монітора. Комп'ютер, як ми знаємо, обробляє всю інформацію в цифровому вигляді, а вивести її для правильного сприйняття людиною повинен в графічному. Таким чином, для того щоб ми могли читати цей текст, треба вирішити як мінімум два завдання: Закодувати друковані символи в цифрову форму. Забезпечити операційній системі можливість зіставлення цифрової форми з векторними символами, іншими словами, знайти правильні літери.

Перші кодування

Родоначальницею всіх кодувань прийнято вважати американську ASCII. В ній був описаний застосовуваний в англійській мові латинський алфавіт зі знаками пунктуації і арабські цифри. Саме використані в ній 128 символів стали основою для подальших розробок - їх використовує навіть сучасна таблиця символів Юнікоду. Літери латинського алфавіту займають з тих пір перші позиції в будь-якому кодуванні.
Всього ASCII дозволяла зберегти 256 символів, але оскільки перші 128 були зайняті латиницею, решта 128 почали використовувати у всьому світі для створення національних стандартів. Наприклад, у Росії на її основі були створені CP866 і KOI8-R. Називалися такі варіації розширеними версіями ASCII.

Кодові сторінки і «кракозябри»

Подальший розвиток технологій і поява графічного інтерфейсу призвело до того, що американським інститутом стандартизації була створена кодування ANSI. Російським користувачам, особливо зі стажем, її версія відома під назвою Windows 1251. В ній вперше було застосовано поняття «кодова сторінка». Саме з допомогою кодових сторінок, які містили символи національних алфавітів, окрім латинського, було налагоджено «взаєморозуміння» між комп'ютерами, які використовуються у різних країнах.

Разом з тим наявність великої кількості різних кодувань, використовуваних для однієї мови, початок викликати проблеми. З'явилися так звані кракозябри. Виникали вони від розбіжності вихідної кодової сторінки, в якій створювалася якась інформація, і кодової сторінки, яка застосовується за промовчанням на комп'ютері кінцевого користувача.
В якості прикладу можна привести зазначені вище кириличні кодування CP866 і KOI8-R. Букви в них відрізнялися кодовими позиціями і принципами розміщення. У першій вони були розставлені в алфавітному порядку, а в другій - у довільному. Можете уявити, що творилося перед очима користувача, який намагався відкрити такий текст, не маючи потрібної кодової сторінки або її неправильної інтерпретації комп'ютером.

Створення Unicode

Поширення інтернету та супутніх технологій, таких як електронна пошта, призвело до того, що врешті-решт ситуація з спотворенням текстів перестала влаштовувати всіх. Передові компанії в області IT утворили Unicode Consortium ("Консорціум Unicode). Таблиця символів, представлена ним у 1991 році під назвою UTF-32 дозволяла зберігати більше мільярда унікальних символів. Це був найважливіший крок на шляху до розшифровки текстів.
Однак перша універсальна таблиця кодів-символів Юнікод UTF-32 не отримала великого поширення. Основною причиною стала надмірність збереженої інформації. Швидко було підраховано, що для країн, в яких використовується латинський алфавіт, закодований за допомогою нової універсальної таблиці, текст буде займати місця в чотири рази більше, ніж при використанні розширеній таблиці ASCII.

Розвиток Unicode

Наступна таблиця символів Юнікод UTF-16 усунула цю проблему. Кодування в ній здійснювалося в два рази меншою кількістю біт, але разом з тим зменшилася і кількість можливих комбінацій. Замість мільярдів символів вона дозволяє зберегти тільки 65536. Тим не менш вона виявилася настільки вдалою, що це число, за рішенням Консорціуму, було визначено як базовий простір зберігання символів стандарту Unicode. Незважаючи на такий успіх, UTF-16 не влаштовувала всіх, оскільки обсяг збереженої і передаваної інформації як і раніше завищувався в два рази. Універсальним рішенням стала UTF-8 таблиця символів Юнікоду із змінною довжиною запису. Це можна назвати проривом в цій області.
Таким чином, з введенням двох останніх стандартів таблиця символів Юнікоду вирішила проблему єдиного кодового простору для всіх застосовуваних у даний час шрифтів.

Юнікод для російської мови

Завдяки змінною довжиною коду, що застосовується для відображення символів, латиниця кодується у форматі Юнікод так само, як і в своєї прародительки ASCII, тобто одним бітом. Для інших алфавітів картина може виглядати по-різному. Наприклад, знаки грузинського алфавіту використовують для кодування три байти, а символи кириличного алфавіту – два. Все це можливо в рамках використання стандарту UTF-8 Юнікод (таблиця символів). Російська мова або кириличний алфавіт займає в загальному кодовому просторі 448 позицій, розбитих на п'ять блоків.


У зазначені п'ять блоків входять основний кириличний і церковнослов'янська алфавіт, а також додаткові букви інших мов, які використовують кирилицю. Ряд позицій виділений для відображення старих форм представлення літер кирилиці, а 22 позиції із загальної кількості поки залишаються вільними.

Актуальна версія Юнікоду

З рішенням своєї першочергової задачі, яка полягала в стандартизації шрифтів і створення для них єдиного кодового простору, "Консорціум" не припинив свою роботу. Юнікод постійно розвивається і поповнюється. Остання актуальна версія цього стандарту 9.0 побачила світ у 2016 році. В неї було включено шість додаткових алфавітів і розширений список стандартизованих емодзі.
Треба сказати, що з метою спрощення досліджень, в Юнікод додаються навіть так звані мертві мови. Таку назву вони отримали тому, що людей, для яких він був рідним, не існує. До цієї групи відносять також мови, що дійшли до нашого часу лише у вигляді письмових пам'яток. В принципі, подати заявку на додавання символів в нову специфікацію Юнікод може будь-який бажаючий. Правда, для цього доведеться заповнити пристойну кількість вихідних документів і витратити багато часу. Живим прикладом цього може служити історія програміста Теренса Ідена. У 2013 році він подав заявку на включення в специфікацію символів, що належать до позначення кнопок управління живленням комп'ютера. В технічній документації вони використовувалися з середини 70-х років минулого століття, але до появи специфікації 9.0 не входили до складу Unicode.

Таблиця символів

На кожному комп'ютері, незалежно від застосовуваної операційної системи, Юнікод-таблиця символів. Як користуватися цими таблицями, де їх знайти і для чого вони можуть придатися звичайному користувачеві?
В ОС Windows таблиця символів розташовується в розділі меню «Службові». У сімействі операційних систем Linux її зазвичай можна знайти в розділі «Стандартні», а в MacOS – в налаштуваннях клавіатури. Основне призначення цієї таблиці – введення в текстові документи символів, які не розташовані на клавіатурі. Застосування для таких таблиць можна знайти саме широке: від введення технічних символів і піктограм національних грошових систем до написання інструкції щодо практичного застосування карт Таро.

На закінчення

Юнікод використовується повсюдно і увійшов в наше життя разом з розвитком інтернету і мобільних технологій. Завдяки його використанню істотно спростилася система міжнаціональних комунікацій. Можна сказати, що впровадження Юнікоду є показовим, але абсолютно непомітним прикладом використання технологій для загального блага всього людства.
Цікаво по темі
Як відмінити голос в опитуванні ВК? Способи та поради
Як відмінити голос в опитуванні ВК? Способи та поради
Будь-якого користувача мережі може зацікавити, як відмінити голос в опитуванні ВК. Під час перегляду ...
Способи, як написати римські цифри у "Ворді"
Способи, як написати римські цифри у "Ворді"
Кожен з нас звик користуватися арабськими цифрами, так як сьогодні вони найбільш поширені. Римські використовуються рідше. Однак іноді доводиться
Як на клавіатурі ставиться апостроф (кома вгорі)
Як на клавіатурі ставиться апостроф (кома вгорі)
Кома вгорі, або апостроф, якщо правильно називати цей знак, часто зустрічається в граматиці мов народів різних країн. У ряді випадків кома вгорі
Три способи, як у "Ворді" поставити квадратні дужки
Три способи, як у "Ворді" поставити квадратні дужки
Про те, як у "Ворді" поставити квадратні дужки на клавіатурі, знає практично кожен. Але є ще безліч ...
Смайли японські із символів і текстові. Японські смайли каомодзи
Смайли японські із символів і текстові. Японські смайли каомодзи
Користувачі соціальних мереж та меседжерів знають, як виглядають і для чого потрібні смайли. Японські ідеограми, точно передають емоції за допомогою
SQL (типи даних): таблиця
SQL (типи даних): таблиця
Коротка, але важлива інформація про основні типи даних мови SQL. Об'єм пам'яті, що виділяється при визначенні типів даних.