Информатика. Базовый курс

Бесплатно 8 студентов обучается

Кодирование текстовой информации

text_codeТекстовая или символьная информация представляется в компьютере в виде двоичных чисел, где каждому коду соответствует свой символ. Всё зависит от того какое количество разрядов имеет число (код). Это даёт нам возможность определить общее число комбинаций.

Для этого давайте возьмём пример из жизни: Представьте что Вы забыли 3 цифры своего PIN кода, первую цифру Вы знаете, это, например, “4”, а остальные забыли.

Пин-код У нас получается 1000 комбинаций, а если учесть что для перебора всех комбинаций мы будем тратить по 3 сек. времени, то общее время составит: 3*1000=3000/60=50 мин. Конечно, это время мы потратим только в том случае, когда будем последовательно проверять все комбинации, а “нужный” код будет проверен в конце.

В идеале, чтобы не запутаться, лучше коды вводить по правилам счёта: 000, 001, 002, 003, ……  999.

Если же мы используем двоичные числа, то количество комбинаций для трёх разрядного числа, будет составлять всего 8. Это последовательный ряд: 000, 001, 010, 011, 100, 101, 110, 111.

Комбинации двоичного числа Это значит что каждому символу можно присвоить свой уникальный двоичный код.


 Кодовые таблицы

Давайте теперь рассчитаем сколько нам понадобится кодов для того чтобы закодировать символьную информацию. Стандартная клавиатура состоит:Формула Хартли

  • латиница – 26*2=52 символа.
  • кириллица – 33*2=66 символов.
  • цифры – 0….9=10.
  • математические знаки – 20 знаков.
  • знаки препинания – 10 знаков.
  • специальные символы, включая пробел – 20 символов.

Подсчитаем сумму: 52+66+10+20+10+20=178 символов.

По формуле Хартли, разрядность двоичного числа, а, следовательно и информационный вес 1 символа укладывается в диапазоне от 7 до 8 бит. 2 в степени

Первая в мире кодовая таблица символов появилась в 1963 году, её название: “ASCII – American Standart Code for Information Interchange“. Поначалу 1 символ занимал 7 бит информации, что давало в совокупности 128 кодов символов. Этого было достаточно для одноязычной клавиатуры, позднее понадобилось уже 8 бит.

Так 8 бит или 1 Байт – базовая стандартная величина, определяющая количество текстовой (символьной) информации.

 Состав таблицы ASCII:

  1. Первые 32 кода (0….31) – непечатные (служебные) коды.
  2. Основная таблица (32…..127) – буквы, цифры, знаки препинания в английской раскладке.
  3. Расширенная таблица (128…..255) – буквы, знаки препинания в русской раскладке (Кириллица Win 1251, 1252 и т.д.).

Таблицы кодов UNICODE:

Бурное развитие интернета обнажило большой недостаток однобайтных таблиц кодов, которые имеют огромное разнообразие расширенных таблиц: русский, иврит, арабский, греческий и пр. Пользователям интернета приходилось подбирать подходящую таблицу кодов для корректного отображения текстовой информации.

Сейчас такой проблемы нет, поскольку были реализованы универсальные кодовые таблицы UNICODE (universal code). Разница состоит в том, что информационный вес 1 символа стал составлять 2 байта (16 бит). Это позволило разместить в одной таблице 65 536 символов. Такого количества уникальных кодов достаточно для того чтобы разместить в одной таблице несколько расширенных таблиц (греческий, арабский, кириллица и т.д.).

2 в 16 степени

Решение задач:

Задача 1.

Информационное сообщение объемом 1,5 КБ содержит 3072 символа. Сколько символов содержит алфавит, при по­мощи которого было записано это сообщение?

Для решения такой задачи нам понадобится формула Хартли и формула для определения информационного объема текстового сообщения.

formula hartly

 

где, I – объём информационного сообщения;

К – количество символов в сообщении;

i – информационный вес 1 символа;

N – “мощность” (количество символов) алфавита.

Посмотреть корзину

План курса