1.09. Данные и информация
Данные и информация
Основные понятия
★ Информация – различные сведения, данные, передаваемые посредством сигналов и воспринимаемые человеком или специальным устройством. Это могут быть абсолютно любые сведения, которые можно сохранить, преобразовать и передать.
Сведения — это совокупность фиксированных в любой форме сообщений, которые передают знания о чём-либо, отражают характеристики, события, свойства или связи.
★ Данные – поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки.
Например, файл temperature.csv может содержать строки:
2025-01-01, -5
2025-01-02, 0
2025-01-03, 3
Эти строки — данные. Они могут быть интерпретированы как:
- температура в градусах Цельсия,
- номера дней и случайные числа,
- дата и уровень заряда батареи.
Только контекст превращает данные в информацию. Контекст — это окружение или совокупность обстоятельств, которые помогают понять истинный смысл слова, фразы, события или явления; без него информация может быть неполной, двусмысленной, как «слово вне контекста» или «вырванная из контекста фраза». Это может быть отрывок текста (вербальный контекст) или ситуация, история, культура, время (ситуативный контекст).
Состояние данных — это текущее содержание и организация информации в момент времени, включая её структуру, формат и физическое размещение.
Структура данных — это способ организации информации, определяющий взаимное расположение элементов, связи между ними и порядок доступа к содержимому.
Формат данных — это набор правил, описывающих, как информация представлена в файле или потоке: порядок байт, наличие заголовков, разделителей, метаданных и кодировок.
Формат данных работает только тогда, когда обе стороны — программа, записывающая данные, и программа, читающая их — используют одну и ту же спецификацию. Без этого данные остаются "мёртвой" последовательностью байтов.
Тип данных — это категория, определяющая допустимые значения, операции над ними и способ хранения в памяти или на носителе.
Вид данных — это классификация информации по характеру содержания: текстовые, числовые, графические, аудио, видео, бинарные и другие категории, отражающие суть представляемых сведений.
Физическое размещение данных — это конкретное расположение информации на материальном носителе: секторы диска, ячейки оперативной памяти, блоки флеш-памяти или участки кэша процессора.
Частенько слова «информация» и «данные» употребляют, подразумевая одно и то же, и в принципе, оно так и есть, если не углубляться в глубокую информатику, однако данные – это информация, превращённая в какую-то форму. Иначе говоря, картинка – данные, но картинка содержит в себе информацию, просто эта информация была представлена в графической форме.
Форма — это структурированный способ представления информации, определяющий её внешний вид, структуру и правила интерпретации.
Другой пример – данные – это факты, допустим, набор цифр. А информация – осмысленные данные, которые спрятаны в изначальных данных. Аналог – данные - ноты на бумаге, а информация - мелодия, которую мы слышим. Ноты сами по себе — тоже информация, но структурированная в виде инструкций для исполнения. Мелодия — это результат применения этих инструкций человеком или устройством. Так же и компьютер: он не «слышит» мелодию, он лишь следует правилам преобразования данных.
С технической точки зрения, компьютер хранит и передаёт только данные — последовательности байтов. Смысл (информацию) в эти данные вкладывает человек или программа, которая знает, как их интерпретировать.
Факт — это проверенное и объективно существующее событие, явление или утверждение, не зависящее от мнений или интерпретаций.
Цифры — это условные знаки, используемые для записи чисел и представления количественных значений в системах счисления.
Буквы — это графические символы, используемые в письменных языках для обозначения звуков речи и построения слов.
Символы — это условные знаки, применяемые для представления понятий, действий, значений или команд в языках, кодировках, системах записи.
Обозначение — это условный знак или совокупность знаков, выбранных для идентификации, именования или ссылки на объект, понятие, величину или операцию.
Компьютер – это не живое и не мыслящее создание, оно не понимает текст, который мы пишем, не понимает и не рассуждает, ибо это электронное вычислительное устройство, работающее по инструкциям, и которое понимает лишь один язык, в котором, на самом деле, всего два «слова»:
- сигнал есть (1);
- сигнала нет (0).
Сигнал — это физический процесс, несущий информацию и способный изменять своё состояние во времени или пространстве для передачи данных между устройствами или системами.
Понимание — это результат обработки информации, при котором становится возможным извлечение смысла, установление связей и применение знаний в новых ситуациях. Этим как раз-таки и не обладает компьютер, ведь смысл нужен нам, а не технике.
Следовательно, и вся информация в электронном виде – это совокупность огромнейшего количества нулей и единиц – обозначений «сигнал есть/сигнала нет». И эта минимальная единица, этот сигнал (его отсутствие) – и есть бит.
Бит — это не сам провод или транзистор, а логическое состояние, которое может быть реализовано разными физическими способами: напряжение высокое/низкое, магнитная полярность, отражение света и так далее. Компьютер оперирует битами как абстракциями, а не как физическими объектами.

Технически, все электронные устройства, упрощённо, понимают ровно так же, как лампочка - либо сигнал есть, либо нет. Поэтому все команды, коды и инструкции превращаются в набор битов.
Размер
Объём — это количественная мера занимаемого пространства или ресурсов, например, количество байт, необходимых для хранения данных.
Размер — это численное выражение объёма данных, представленное в принятых единицах измерения (байтах, килобайтах и так далее).
★ Размер данных измеряется в следующих единицах:
| Единица | Сокращение | Размер |
|---|---|---|
| Бит | bit (b) бит | 0 или 1 |
| Байт | Byte (B) Б | 8 бит |
| Килобайт | KB КБ | 1024 байта |
| Мегабайт | MB МБ | 1024 КБ |
| Гигабайт | GB ГБ | 1024 МБ |
| Терабайт | TB ТБ | 1024 ГБ |
| Петабайт | PB ПБ | 1024 ТБ |
| Эксабайт | EB ЭБ | 1024 ПБ |
| Зеттабайт | ZB ЗБ | 1024 ЭБ |
| Йоттабайт | YB ЙБ | 1024 ЗБ |
По историческим причинам, традиционно объем (размер) файлов измеряют в байтах (допустим, 40 МБ), а битами измеряют скорость (допустим, скорость интернет-соединения, Мбит/с).
Скорость — это мера изменения состояния за единицу времени, например, количество переданных бит в секунду при обмене данными.
На практике, есть двоичная и десятичная системы.
Система исчисления — это совокупность правил и символов для записи чисел, характеризуемая основанием, набором цифр и способом формирования значений.
Двоичная система — это система счисления с основанием два, использующая только две цифры: 0 и 1, и применяющаяся для представления данных в цифровых устройствах.
Десятичная система — это система счисления с основанием десять, использующая десять цифр от 0 до 9, и применяемая в повседневных вычислениях и маркетинговых обозначениях.
Двоичная – 1024, а десятичная – 1000.
Это важно, ибо может путать людей:
- жесткие диски, Flash-карты измеряют свой объем в десятичной системе (то есть, 1 ГБ – 1000 МБ, 1 млрд байт);
- оперативная память и файлы измеряются в двоичной (1 ГБ – 1024 МБ, 1073741824 байт).
Именно поэтому, если купить USB-носитель с памятью, по факту его окажется меньше – потому что маркетинг заявляет всё в десятичной, а получаете вы двоичную, хех. И диск на 1 ТБ в Windows покажется как 931 ГБ.
Расчёт:
1 ТБ (маркетинговый) = 1 000 000 000 000 байт
1 ГБ (операционная система) = 1024³ = 1 073 741 824 байт
1 000 000 000 000 ÷ 1 073 741 824 ≈ 931,32 ГБ