Перейти к основному содержимому

Данные и информация — итоги

Всем

Кратко — что стоит унести из раздела "Данные и информация". Если пункт кажется туманным — откройте указанную главу или оглавление.


FAQ — Часто задаваемые вопросы

Типичные ошибки новичков с файлами, единицами измерения и типами в коде. Определения для зачёта — в чек-листе.

Вопрос. Открыл файл в "Блокноте" — сплошные символы и иероглифы.

Ответ. Блокнот читает байты как текст в одной кодировке; бинарный формат (docx, jpg) или неверная таблица символов даёт "кашу". Открывайте в программе, которая знает формат. Подробнее здесь — глава 1, глава 2.

Вопрос. Скачал фильм 700 МБ, а интернет "100 Мбит" — почему качалось не 7 секунд?

Ответ. Мбит/с — мегабиты в секунду (скорость канала); МБ — мегабайты (размер файла). Делите биты на 8 и учитывайте реальную скорость, не пиковую рекламу. Подробнее здесь — глава 1.

Вопрос. Телефон храню как число в базе — пропали ведущие нули и "+7".

Ответ. Номер и ИНН — строки (string), не целые числа: ведущие нули и формат важны. Подробнее здесь — глава 3.

Вопрос. В Python 0.1 + 0.2 не равно 0.3 — программа сломана?

Ответ. Это представление float (IEEE 754); для денег используют Decimal или целые копейки. Подробнее здесь — глава 3.

Вопрос. JPEG сохраняю снова и снова — качество падает. Можно "вернуть"?

Ответ. JPEG — сжатие с потерями; каждое пересохранение отбрасывает детали. Рабочий оригинал храните в PNG или RAW. Подробнее здесь — глава 2.

Вопрос. Файл .mp3 — это "тип звука" или "тип данных в коде"?

Ответ. Разные оси: модальность (аудио) и контейнер/формат файла (MP3) отдельны от типа string или bytes в программе. Подробнее здесь — глава 2, глава 3.

Вопрос. H.264 и MP4 — одно и то же?

Ответ. H.264 — кодек (алгоритм сжатия); MP4 — контейнер, который может содержать H.264 и аудио-дорожку. Подробнее здесь — глава 2.

Вопрос. Удалил фото, но в соцсети осталась геолокация — откуда?

Ответ. В EXIF-метаданных могли остаться GPS и модель камеры; сервис мог прочитать их при загрузке. Перед публикацией — strip метаданных. Подробнее здесь — глава 5.

Вопрос. "Данные есть, информации нет" — пример из жизни?

Ответ. Строка 42 без контекста — просто число; в отчёте "температура 42 °C" — информация для врача. Смысл даёт интерпретация и контекст. Подробнее здесь — глава 1.

Вопрос. PNG и JPEG оба "картинки" — когда что выбирать?

Ответ. PNG — без потерь, скриншоты и графика с текстом; JPEG — фото с меньшим размером, но с потерями. Подробнее здесь — глава 2.

Вопрос. В JavaScript "5" + 2 даёт "52", в Python ошибка — почему?

Ответ. JS — слабая типизация с приведением типов; Python — сильная, строку и число так складывать нельзя. Подробнее здесь — глава 3, глава 4.

Вопрос. Динамическая типизация — значит, типы не важны?

Ответ. Типы важны всегда; в динамических языках проверка часто при выполнении. Ошибки типов всплывают на реальных данных, если нет тестов. Подробнее здесь — глава 4.

Вопрос. Векторный логотип растянули — почему не "мылится" как фото?

Ответ. Вектор хранит геометрию и кривые, масштабируется без пиксельной сетки; растр (JPEG/PNG) при увеличении показывает квадраты пикселей. Подробнее здесь — глава 2.

Вопрос. Аудио "обрезали" до 128 kbps — пропали все ноты?

Ответ. Потеряное сжатие убирает малозаметные для слуха детали, смысл мелодии часто сохраняется; для архива берут FLAC или WAV. Подробнее здесь — глава 2.

Вопрос. Дата 01/02/03 — все понимают одинаково?

Ответ. Формат даты зависит от локали и контекста (ДД/ММ/ГГ vs ММ/ДД/ГГ); в коде используют ISO 8601 (2025-05-31). Подробнее здесь — глава 3.

Вопрос. ID пользователя — можно хранить как обычное int навсегда?

Ответ. ID часто строка или UUID: не для арифметики, а для однозначной ссылки; int переполнится или сольётся с другими системами. Подробнее здесь — глава 3.

Вопрос. Метаданные "можно выкинуть" — файл станет меньше и хуже?

Ответ. Часть метаданных нужна для ориентации фото, поиска, прав; лишнее (GPS) можно удалить. Без описания формата декодер не поймёт содержимое. Подробнее здесь — глава 5.

Вопрос. Бит — это физический провод в компьютере?

Ответ. Бит — логическая единица 0/1; физически это может быть напряжение, намагниченность, уровень сигнала. Подробнее здесь — глава 1.

Вопрос. UTF-8 и "Unicode" — зачем два слова?

Ответ. Unicode — таблица символов; UTF-8 — способ записать коды символов в байты. Старые cp1251 и UTF-8 несовместимы без перекодировки. Подробнее здесь — глава 1, глава 2.

Вопрос. Видео тормозит, звук идёт — файл "сломан"?

Ответ. Видеопоток тяжелее аудио; при нехватке CPU или битрейта декодер пропускает кадры, звук может идти дальше. Подробнее здесь — глава 2.

Вопрос. bool только true/false — зачем он, если есть 0 и 1?

Ответ. Логический тип явно помечает условия и флаги, ограничивает операции (AND/OR) и делает код читаемее. Подробнее здесь — глава 3.

Вопрос. Generics и "зависимые типы" в главе 4 — нужны школьнику?

Ответ. Базовый курс заканчивается на статической/динамической типизации; generics — углубление при изучении Java, C#, Rust. Подробнее здесь — глава 4.

Вопрос. Теги в MP3 и "теги" в HTML — одно понятие?

Ответ. Оба — описательные метаданные, но форматы разные (ID3 vs <meta>). Идея "подписать ресурс" общая. Подробнее здесь — глава 5.

Вопрос. Знание → информация → данные — зачем три слова?

Ответ. Учебная лестница: данные формализованы, информация понятна получателю, знание применимо на практике. Помогает не путать "байты на диске" с "решением задачи". Подробнее здесь — глава 1.

Вопрос. Сканер выдал PDF с "картинкой текста" — почему нельзя искать слова?

Ответ. Это растровое изображение страницы без слоя текста; нужен OCR или исходный текстовый слой. Модальность "текст" требует правильного представления. Подробнее здесь — глава 2.

Вопрос. Явное приведение типа int(x) — когда без него программа "молча" ошибётся?

Ответ. При неявном преобразовании в слабо типизированных языках (JS) или при переполнении диапазона int. Явное приведение документирует намерение. Подробнее здесь — глава 4.

Вопрос. Кэш браузера показывает старую версию сайта — связь с разделом про данные?

Ответ. Кэш хранит копию ресурса; метаданные (ETag, Cache-Control) решают, свежая ли версия. Hard refresh или TTL сбрасывают устаревшее. Подробнее здесь — глава 5, Кэширование.

Вопрос. Что такое бит и байт?

Ответ. Бит — минимальная единица (0 или 1); байт — 8 бит. Все файлы и программы в итоге хранятся как последовательность байтов. Подробнее здесь — глава 1.

Вопрос. Чем гигабайт (ГБ) отличается от гибибайта (GiB)?

Ответ. На упаковке диска часто десятичный ГБ (1000³); Windows показывает GiB (1024³). Отсюда "1 ТБ" ≈ 931 GiB в проводнике. Подробнее здесь — глава 1.

Вопрос. Почему диск 1 ТБ показывает 931 ГБ?

Ответ. Производитель считает в десятичных терабайтах; ОС — в двоичных гибибайтах. Это не "пропавшие" gigabytes, а разные системы счёта. Подробнее здесь — глава 1.

Вопрос. Чем мегабит (Мбит) отличается от мегабайта (МБ)?

Ответ. Мбит/с — скорость интернета (биты в секунду). МБ — размер файла (байты). 100 Мбит/с ≈ 12,5 МБ/с теоретически. Подробнее здесь — глава 1.

Вопрос. Что такое UTF-8?

Ответ. UTF-8 — способ записать символы Unicode (русский, emoji) в байты. Стандарт для веба и новых файлов; старые cp1251 требуют явной перекодировки. Подробнее здесь — глава 1, глава 2.

Вопрос. Что такое кодировка текста и кракозябры?

Ответ. Кодировка — правило "байт → символ". Кракозябры — когда файл открыли не той таблицей (UTF-8 vs Windows-1251). Подробнее здесь — глава 1, Текст.

Вопрос. Чем данные отличаются от информации?

Ответ. Данные — формализованные значения (байты, числа); информация — когда получатель понимает смысл в контексте. Подробнее здесь — глава 1.

Вопрос. Чем JPEG отличается от PNG?

Ответ. JPEG — сжатие с потерями, меньший размер для фото. PNG — без потерь, лучше для скриншотов и графики с текстом. Подробнее здесь — глава 2.

Вопрос. Чем MP3 отличается от WAV и FLAC?

Ответ. MP3 — сжатие с потерями, маленький файл. WAV/FLAC — без или с минимальными потерями, больше размер, для архива и студии. Подробнее здесь — глава 2.

Вопрос. Что такое метаданные файла (EXIF, ID3)?

Ответ. Данные о файле: дата съёмки, GPS, автор, теги песни. Не видны при обычном просмотре, но читаются программами. Подробнее здесь — глава 5.

Вопрос. Что такое формат файла (docx, pdf, mp4)?

Ответ. Спецификация, как байты интерпретировать. Записывающая и читающая программа должны понимать один формат. Подробнее здесь — глава 2.

Вопрос. Что такое тип данных int, string, bool в программировании?

Ответ. Скалярные типы задают допустимые значения и операции: int — целые, string — текст, bool — true/false. Подробнее здесь — глава 3.

Вопрос. Чем статическая типизация отличается от динамической?

Ответ. Статическая (Java, C#) проверяет типы при компиляции; динамическая (Python, JS) — чаще при выполнении. Подробнее здесь — глава 4.

Вопрос. Что такое Unicode?

Ответ. Единая таблица символов всех языков и emoji. В файлах хранится через кодировки (UTF-8, UTF-16). Подробнее здесь — глава 1, глава 2.

Вопрос. Растровая и векторная графика — в чём разница?

Ответ. Растр (JPEG, PNG) — сетка пикселей; вектор (SVG) — кривые и фигуры, масштабируется без "мыла". Подробнее здесь — глава 2, Графика.

Вопрос. Что такое lossless и lossy сжатие?

Ответ. Lossless (PNG, ZIP) — восстановление байт один в один. Lossy (JPEG, MP3) — отбрасывает малозаметные детали ради меньшего размера. Подробнее здесь — глава 2.

Вопрос. Сколько байт в килобайте — 1000 или 1024?

Ответ. В информатике KiB = 1024 байта; в рекламе дисков часто KB = 1000. Уточняйте контекст: ОС, маркетинг или учебник. Подробнее здесь — глава 1.

Вопрос. Что такое контекст при интерпретации данных?

Ответ. Одни и те же байты означают разное в зависимости от формата, кодировки и задачи (текст vs картинка vs число). Подробнее здесь — глава 1.

Вопрос. Понимает ли компьютер русский текст?

Ответ. Компьютер хранит только байты; "русский" появляется, когда программа применяет кодировку Unicode. Подробнее здесь — глава 1.

Вопрос. Что такое контейнер MP4, AVI, MKV?

Ответ. "Обёртка" для видео- и аудиодорожек, сжатых кодеками (H.264, AAC). Один кодек — разные контейнеры. Подробнее здесь — глава 2, Аудио и видео.

Вопрос. Зачем хранить ИНН и телефон как string, а не number?

Ответ. Ведущие нули, плюс, форматирование — часть идентификатора; арифметика над ними не нужна. Подробнее здесь — глава 3.

Вопрос. Что такое данные, информация и знание?

Ответ. Учебная лестница: данные формализованы → информация понятна → знание применимо на практике. Подробнее здесь — глава 1.

Вопрос. Что такое сильная и слабая типизация?

Ответ. Сильная (Python) — редко неявное смешение типов; слабая (JS) — автоматическое приведение ("5" + 2). Не путать с static/dynamic. Подробнее здесь — глава 4.


Что запомнить

Данные и смысл

  • Компьютер хранит и передаёт байты; осмысленное содержание появляется при интерпретации (кодировка, формат, контекст).
  • Цепочка в учебных планах — данные → информация → знание — данные формализованы, информация понятна получателю, знание применимо на практике.

Объём и единицы

  • Бит — минимальная логическая единица (0/1); байт — 8 бит.
  • На дисках в рекламе часто десятичные ГБ (1000ⁿ), в ОС для файлов и RAM — двоичные GiB (1024ⁿ); отсюда "1 ТБ" ≈ 931 GiB в проводнике Windows.
  • Мбит/с — скорость канала (биты в секунду), МБ — размер файла (байты).

Виды и представление

  1. Текст (символы, UTF-8 и др.)
  2. Графика (пиксели, цвет)
  3. Аудио (дискретизация во времени)
  4. Видео (кадры + звук)

У файла есть уровни: модальностькодек/форматконтейнер → байты на диске.

В программах

  • Скалярные типы (числа, bool, символ/строка, дата, id) задают допустимые операции и размер в памяти.
  • Статическая типизация проверяет типы при компиляции, динамическая — при выполнении. Подробнее: Типизация.

Метаданные

  • Описание данных (автор, дата, GPS, теги) — отдельная тема: Метаданные.

Куда идти дальше

ТемаРаздел
Операции с данными (ввод-вывод, CRUD)Базовые операции с данными
Массивы, списки, деревья, хеш-таблицыСтруктуры данных
Таблицы и СУБДОсновы баз данных