Данные и информация
Данные и информация
Основные понятия
★ Информация – различные сведения, данные, передаваемые посредством сигналов и воспринимаемые человеком или специальным устройством. Это могут быть абсолютно любые сведения, которые можно сохранить, преобразовать и передать.
Сведения — это совокупность фиксированных в любой форме сообщений, которые передают знания о чём-либо, отражают характеристики, события, свойства или связи.
★ Данные – поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки.
Например, файл temperature.csv может содержать строки:
2025-01-01, -5
2025-01-02, 0
2025-01-03, 3
Эти строки — данные. Они могут быть интерпретированы как:
- температура в градусах Цельсия,
- номера дней и случайные числа,
- дата и уровень заряда батареи.
Только контекст превращает данные в информацию. Контекст — это окружение или совокупность обстоятельств, которые помогают понять истинный смысл слова, фразы, события или явления; без него информация может быть неполной, двусмысленной, как "слово вне контекста" или "вырванная из контекста фраза". Это может быть отрывок текста (вербальный контекст) или ситуация, история, культура, время (ситуативный контекст).
Данные — формализованная запись (байты, числа в файле).
Информация — смысл для получателя, который знает правила чтения.
Знание — информация, которую можно применить (например, "завтра мороз — одеться теплее").
В теории информации (Шеннон) "информация" — мера уменьшения неопределённости; в бытовом и IT-смысле чаще говорят о интерпретации данных.
Play ITЗагрузка интерактивного демо…
Состояние данных — это текущее содержание и организация информации в момент времени, включая её структуру, формат и физическое размещение.
Структура данных — это способ организации информации, определяющий взаимное расположение элементов, связи между ними и порядок доступа к содержимому.
Формат данных — это набор правил, описывающих, как информация представлена в файле или потоке — порядок байт, наличие заголовков, разделителей, метаданных и кодировок.
Формат данных работает только тогда, когда обе стороны — программа, записывающая данные, и программа, читающая их — используют одну и ту же спецификацию. Без этого данные остаются "мёртвой" последовательностью байтов.
Тип данных — это категория, определяющая допустимые значения, операции над ними и способ хранения в памяти или на носителе.
Вид данных — это классификация информации по характеру содержания — текстовые, числовые, графические, аудио, видео, бинарные и другие категории, отражающие суть представляемых сведений.
Физическое размещение данных — это конкретное расположение информации на материальном носителе — секторы диска, ячейки оперативной памяти, блоки флеш-памяти или участки кэша процессора.
Частенько слова "информация" и "данные" употребляют, подразумевая одно и то же, и в принципе, оно так и есть, если не углубляться в глубокую информатику, однако данные – это информация, превращённая в какую-то форму. Иначе говоря, картинка – данные, но картинка содержит в себе информацию, просто эта информация была представлена в графической форме.
Форма — это структурированный способ представления информации, определяющий её внешний вид, структуру и правила интерпретации.
Другой пример – данные – это факты, допустим, набор цифр. А информация – осмысленные данные, которые спрятаны в изначальных данных. Аналог – данные - ноты на бумаге, а информация - мелодия, которую мы слышим. Ноты сами по себе — тоже информация, но структурированная в виде инструкций для исполнения. Мелодия — это результат применения этих инструкций человеком или устройством. Так же и компьютер: он не "слышит" мелодию, он лишь следует правилам преобразования данных.
С технической точки зрения, компьютер хранит и передаёт только данные — последовательности байтов. Смысл (информацию) в эти данные вкладывает человек или программа, которая знает, как их интерпретировать.
Представьте, что компьютер — это курьер, который умеет перевозить только коробки с номерами (нули и единицы). Любое письмо, фото, песня или видео перед отправкой упаковывают по правилам кодирования: эта последовательность байтов означает букву «А», эти — красный пиксель, эти — громкость звука за одну тысячную секунды. Без общих правил получатель увидит бессмыслицу.
Например, набор цифр 38,5. Сам по себе он не несёт пользы — это может быть вес посылки, цена товара или угол наклона детали. Из контекста мы узнаём, что 38,5 — температура тела в °C: человек болен, лихорадка. Данные обрели смысл, стали информацией и побуждают к действию (принять лекарство).
Представьте слово «Мама» или эмодзи кота — 🐈. У него довольно длинный путь:
- смысл, который понимают только люди — это информация;
- кодовые точки Unicode:
U+041C,U+0430,U+043C,U+0430иU+1F408; - байты в UTF-8:
D0 9C D0 B0 D0 BC D0 B0(для «Мама»); - сжатие (ZIP) изменит эти байты, потому что они упакуются;
- если открыть в иной кодировке (Windows-1251), получим
њЏ Џ.
Одни и те же байты дают разный текст при разной кодировке:
raw = b"\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82" # байты на диске
print(raw.decode("utf-8")) # Привет
print(raw.decode("cp1251")) # "кракозябры" — та же запись, другой контекст
Компьютер оперирует данными. Информация появляется, когда есть правило расшифровки и тот, кто это правило знает. Программа ничего не понимает — понимаете только вы.
Факт — это проверенное и объективно существующее событие, явление или утверждение, не зависящее от мнений или интерпретаций.
Цифры — это условные знаки, используемые для записи чисел и представления количественных значений в системах счисления.
Буквы — это графические символы, используемые в письменных языках для обозначения звуков речи и построения слов.
Символы — это условные знаки, применяемые для представления понятий, действий, значений или команд в языках, кодировках, системах записи.
Обозначение — это условный знак или совокупность знаков, выбранных для идентификации, именования или ссылки на объект, понятие, величину или операцию.
Компьютер – это не живое и не мыслящее создание, оно не понимает текст, который мы пишем, не понимает и не рассуждает, ибо это электронное вычислительное устройство, работающее по инструкциям, и которое понимает лишь один язык, в котором, на самом деле, всего два "слова":
- сигнал есть (1);
- сигнала нет (0).
Хотя на физическом уровне всё сводится к состояниям "есть сигнал / нет сигнала", программисты работают с гораздо более удобными абстракциями — числами, текстом, объектами. Машина сама заботится о переводе этих абстракций в электрические импульсы.
Сигнал — это физический процесс, несущий информацию и способный изменять своё состояние во времени или пространстве для передачи данных между устройствами или системами.
Понимание — это результат обработки информации, при котором становится возможным извлечение смысла, установление связей и применение знаний в новых ситуациях. Этим как раз-таки и не обладает компьютер, ведь смысл нужен нам, а не технике.
Следовательно, и вся информация в электронном виде – это совокупность огромнейшего количества нулей и единиц – обозначений "сигнал есть/сигнала нет". И эта минимальная единица, этот сигнал (его отсутствие) – и есть бит.
Бит — это логическое состояние, которое может быть реализовано разными физическими способами — напряжение высокое/низкое, магнитная полярность, отражение света и так далее. Компьютер оперирует битами как абстракциями, а не как физическими объектами.

Технически, все электронные устройства, упрощённо, понимают ровно так же, как лампочка - либо сигнал есть, либо нет. Поэтому все команды, коды и инструкции превращаются в набор битов.
Размер
Объём — это количественная мера занимаемого пространства или ресурсов, например, количество байт, необходимых для хранения данных.
Размер — это численное выражение объёма данных, представленное в принятых единицах измерения (байтах, килобайтах и так далее).
★ Размер данных измеряется в следующих единицах (в IT для памяти и файлов в ОС обычно используют степени 1024; по стандарту IEC их обозначают KiB, MiB, GiB — kibibyte, mebibyte и т.д.):
| Единица | Сокращение | Размер |
|---|---|---|
| Бит | bit (бит) | 0 или 1 |
| Байт | B (байт) | 8 бит |
| Кибибайт | KiB (часто пишут КБ) | 1024 байта |
| Мебибайт | MiB (МБ) | 1024 KiB |
| Гибибайт | GiB (ГБ) | 1024 MiB |
| Тебибайт | TiB (ТБ) | 1024 GiB |
| Пебибайт | PiB (ПБ) | 1024 TiB |
| Эксбибайт | EiB (ЭБ) | 1024 PiB |
| Зебибайт | ZiB (ЗБ) | 1024 EiB |
| Йобибайт | YiB (ЙБ) | 1024 ZiB |
Попробуйте посчитать, сколько байт в одном мебибайте (MiB)?
По историческим причинам размер файлов указывают в байтах (например, 40 МБ), а скорость канала — в битах в секунду (100 Мбит/с). Путать МБ и Мбит/с нельзя: в одном мегабайте 8 мегабит.
Скорость — это мера изменения состояния за единицу времени, например, количество переданных бит в секунду при обмене данными.
На практике, есть двоичная и десятичная системы.
Система исчисления — это совокупность правил и символов для записи чисел, характеризуемая основанием, набором цифр и способом формирования значений.
Двоичная система — это система счисления с основанием два, использующая только две цифры: 0 и 1, и применяющаяся для представления данных в цифровых устройствах.
Десятичная система — это система счисления с основанием десять, использующая десять цифр от 0 до 9, и применяемая в повседневных вычислениях и маркетинговых обозначениях.
Двоичная шкала (1024) — память, размеры файлов в проводнике. Десятичная (1000) — ёмкость на коробке диска и флешки (1 GB = 10⁹ байт).
Это важно, потому что путает покупателей:
- на упаковке SSD "1 ТБ" = 1 000 000 000 000 байт (десятичный терабайт);
- в Windows тот же объём часто показывается как ~931 GiB (1 073 741 824 байта в одном гибибайте).
Расчёт:
1 TB (маркетинг) = 1 000 000 000 000 байт
1 GiB (в ОС) = 1024³ = 1 073 741 824 байт
1 000 000 000 000 ÷ 1 073 741 824 ≈ 931,32 GiB
Информационный объём сообщения
Если сообщение записано дискретно — из символов одного алфавита мощности K, и все символы равновероятны, объём в битах считают так:
i = log₂(K) — вес одного символа (бит)
V = n × i — объём всего сообщения (бит)
где n — количество символов в сообщении.
| Дано | Действие |
|---|---|
| K и n | i = log₂(K), затем V = n × i |
| V и n | i = V ÷ n, затем K = 2^i |
| K — степень двойки | i сразу целое (8→3, 32→5, 64→6…) |
Пример. Слово из 5 букв, алфавит 32 символа: i = log₂(32) = 5 бит, V = 5 × 5 = 25 бит.
Это объём записи. Отдельно в теории информации считают количество информации в смысле уменьшения неопределённости (формула Хартли I = log₂(N)).
Свойства информации (кратко)
Свойства помогают оценить качество сведений. Полные определения и задачи — в базовой информатике, глава 1:
| Свойство | Суть одной фразой |
|---|---|
| Объективность | Не зависит от мнения; есть измерение или документ |
| Актуальность | Сведения не устарели для задачи |
| Полнота | Хватает данных для решения |
| Достоверность | Соответствует фактам |
| Полезность | Помогает достичь цели |
| Понятность | Получатель понимает смысл |
| Дискретность | Представлена отдельными символами, числами, отсчётами |
Информационные процессы (кратко)
Три основных вида: хранение, обработка, передача. Передача идёт от источника к приёмнику по каналу; шум искажает сигнал. Кодирование переводит сведения в код; декодирование — обратно. Условие Фано гарантирует однозначное декодирование при неравномерном коде.
Полный разбор — базовая информатика, глава 1.
Аналоговый и цифровой сигнал; скорость передачи
Дискретизация переводит непрерывный сигнал в отсчёты; шаг Δt = 1/f. Скорость передачи: V = R × t (объём = скорость × время); канал измеряют в бит/с, файл — в байтах (×8). Искажения, шум и криптология — глава 1, скорость.
Система и информационная система
Система — элементы, взаимодействующие как целое. ИС — система для работы с информацией: данные, программы, техсредства, пользователи. Логическая архитектура — функции и связи; физическая — оборудование. Подробно — система, ИС.
Виды ИС и моделирование
Классификации ИС: по автоматизации, назначению, сфере. Модель — упрощённый заместитель объекта; этапы — от цели до проверки адекватности и отсутствия противоречий. Подробно — виды ИС, моделирование.
Информационное, математическое и компьютерное моделирование
Формы инфомоделей (таблица, схема, график…), математические соотношения, этапы компьютерного моделирования, имитация (дискретно-событийное, агентное и др.) — разделы 12–15 главы 1.
Системы счисления
Знаковая система, естественные и формальные языки, позиционные и непозиционные СС, триады и тетрады, сложение в двоичной — базовая информатика, системы счисления.
Представление в компьютере
Бит, коды целых, таблицы символов, RGB/глубина цвета, формулы растра и звука — Виды информации, Числа и типы.
В подборках
Статья входит в тематические подборки и блок "С чего начать?" на главной. Соседние шаги того же маршрута:
Бэкенд и серверная разработка — Архитектура персонального компьютера, Терминал — о разделе, Системное администрирование — о разделе, Аутентификация и авторизация, ORM и работа с данными — о разделе, Low-code и No-code платформы.