Перейти к основному содержимому

Теория информации

Архитектору Инженеру

Теория информации (Клод Шеннон, 1948) измеряет передачу, хранение и обработку данных независимо от смысла. Текст, звук, картинка или телеметрия — для теории это последовательности символов с вероятностями.

Энтропия

Энтропия H — средняя неопределённость символа источника (в битах на символ):

H = −Σ pᵢ · log₂(pᵢ) (сумма по всем символам алфавита с вероятностями pᵢ).

  • Равномерный алфавит — максимум для данного размера алфавита.
  • Перекошенные частоты (частая буква «а») — ниже H, больше избыточности, лучше сжимается.
  • Случайный шифротекст — энтропия близка к пределу, сжатие без потерь почти бесполезно.

Теорема Шеннона об источнике: средняя длина безпотерьного кода не может быть меньше энтропии источника. ZIP, Huffman, arithmetic coding приближаются к этому пределу.

Энтропия

Кодирование и избыточность

Практические коды добавляют избыточность для устойчивости к ошибкам (CRC, Reed–Solomon) — платят объёмом за надёжность канала.

Условная энтропия учитывает контекст: символы не независимы («q» почти всегда за «u» в английском). Отсюда словарные методы (LZ) и предсказательное моделирование (PPM).

Пропускная способность канала

Теорема Шеннона о канале: при заданном уровне шума существует предел скорости передачи, ниже которого ошибки можно делать сколь угодно малыми, а выше — нет.

В IT это объясняет:

  • выбор кодеков и протоколов с учётом BER;
  • trade-off между сжатием, latency и CPU;
  • почему «сжать уже сжатое» (jpeg повторно) не даёт выигрыша.

Связь с безопасностью и данными

  • Стойкость пароля — логарифм мощности пространства ключей; словари и утечки снижают эффективную энтропию.
  • Длина хеша — комбинаторика коллизий (см. дискретную математику).
  • ML — кросс-энтропия как мера «расстояния» распределений предсказания и метки.

Обзор блока: Математическая основа IT.


См. также

Другие статьи этого же раздела в боковом меню (как на странице «О разделе»).