Офисные форматы документов - DOCX, ODT, PDF
Офисные форматы
Программы для работы с текстом
Перед форматами файлов полезно различать типы программ:
| Тип | Задача | Примеры |
|---|---|---|
| Текстовый редактор | Набор символов без богатого оформления | Блокнот, Notepad++, VS Code |
| Редактор кода | Текст программы: подсветка, отступы, поиск | VS Code, PyCharm |
| Текстовый процессор | Оформленный документ: стили, таблицы, колонтитулы | Word, Writer, Google Docs |
| НИС (настольная издательская система) | Вёрстка для печати и PDF высокого качества | InDesign, Scribus, Publisher |
Текстовый редактор сохраняет в основном последовательность знаков (.txt, .md, исходный код). Текстовый процессор хранит ещё параметры абзацев, шрифтов, колонтитулов, встроенные рисунки и таблицы (.docx, .odt). НИС нужна, когда важна компоновка полос — журнал, буклет, плакат.
Подробная школьная теория — базовая информатика, раздел 16. Практика в Word — Работа с Microsoft Word.
Табличные процессоры
| Программа | Назначение |
|---|---|
| Microsoft Excel | Стандарт в Windows и офисе |
| LibreOffice Calc | Бесплатная альтернатива, формат ODS |
| Gnumeric | Таблицы в среде GNOME (Linux) |
| Apple Numbers | Таблицы на Mac и iPad |
| Google Sheets | Облачные таблицы в браузере |
Теория (функции процессора, книга, лист, ячейка, диаграммы) — базовая информатика, раздел 18. Практика — Работа с Excel, формат XLSX.
Что такое офисная программа?
Офисная программа — это прикладное программное обеспечение, предназначенное для создания, редактирования, оформления и управления документами текстового, табличного, презентационного или почтового типа. Такие программы предоставляют инструменты для ввода текста, форматирования, вставки таблиц, изображений, диаграмм, формул, сносок, колонтитулов, автоматических оглавлений, а также проверки орфографии и грамматики.

Формат офисных документов сохраняет не только последовательность символов, но и структуру документа — стили заголовков и абзацев, шрифты, цвета, отступы, интервалы, поля, колонтитулы, сноски, гиперссылки, изображения, таблицы, формулы и метаданные. Обычный текст (например, в формате TXT) содержит только последовательность символов без форматирования, макета и дополнительных элементов. Для отчётов с множеством математических формул (лабораторные по физике, матан, статистика) часто используют LaTeX — готовые примеры с разбором.
DOC семейство
DOC (Document) – стандартный редактируемый офисный формат документов. Отличается тем, что позволяет использовать широкий набор инструментов по форматированию текста, следить за орфографией, грамматикой, пунктуацией, формировать документ по шаблону, добавлять таблицы, изображения, сноски и многое другое.
- DOC – бинарный формат Word (до 2003);
- DOCX – XML-основанный формат (Office Open XML);
- ODT – открытый формат OpenDocument (LibreOffice);
- DOCM – с поддержкой макросов;
- DOT/DOTX – шаблоны документов.
В 1983 году компания Microsoft представила первый текстовый процессор под названием Multi-Tool Word (позже переименован в Microsoft Word ) для MS-DOS. Формат .DOC стал родным форматом Word. Он был бинарным, то есть содержал данные в нечитаемом человеком виде, что позволяло эффективно хранить сложные элементы, вроде стилей, таблиц, изображений, формул, колонтитулов и списков.
В 2003 году Microsoft объявила новый формат — Office Open XML (OOXML) , который получил расширение .docx (для документов), .xlsx (Excel) и .pptx (PowerPoint). Начиная с Microsoft Office 2007 , .docx становится основным форматом по умолчанию. Однако поддержка старого .doc сохранялась через специальный пакет совместимости.
Формат ODT (OpenDocument) был создан консорциумом OASIS и позже принят как международный стандарт ISO/IEC 26300 с целью противостоять проприетарному формату OOXML и сделать офисные документы более переносимыми и независимыми от одного производителя.
Борьба Microsoft и сообщества открытых стандартов привели к "форматной войне", которая закончилась ничьей - оба формата приняты как международные стандарты.
Симулятор Word
Play ITЗагрузка интерактивного демо…
Симулятор Excel
Play ITЗагрузка интерактивного демо…
RTF
RTF (Rich Text Format) – кроссплатформенный формат с базовым форматированием, читаем как обычный текст с RTF-разметкой.
RTF-разметка — это система текстовых команд и управляющих последовательностей, встроенная в документ и описывающая базовые параметры оформления — начертание шрифта, размер, цвет, выравнивание, отступы и простейшие списки. Эта разметка представлена в виде последовательности ASCII-символов, поэтому документ в формате RTF можно открыть и прочитать в любом текстовом редакторе, даже если он не поддерживает форматирование — сама разметка останется видимой.
До появления современных текстовых процессоров данные хранились в виде простого текста (TXT) или в формате RTF (Rich Text Format), который позволял хранить базовое форматирование. RTF был разработан Microsoft в 1987 году как кроссплатформенный формат для обмена документами между разными текстовыми редакторами.
PDF
PDF (Portable Document Format) – стандарт для обмена документами, сохраняющий точное форматирование, может содержать текст, векторную и растровую графику, формы и аннотации.
В начале 1980-х годов, с развитием персональных компьютеров и настольных издательских систем, стало очевидно, что документы выглядят по-разному в зависимости от текстового редактора, установленных шрифтов, принтеров, ОС.
Компания Adobe Systems, основанная Джоном Уорноком и Чарльзом Гешке, работала над технологией описания страниц — языком PostScript, который позволял точно описывать содержимое страницы для печати. И в 1991 году Adobe начала разработку нового формата, который должен был стать платформенно-независимым и сохранять точное оформление документа при передаче между различными устройствами. Первый официальный выпуск состоялся в 1993 году вместе с запуском программы Adobe Acrobat.
OCR — от скана к редактируемому тексту
OCR (Optical Character Recognition) — распознавание текста на изображении: сканер или камера создаёт цифровую картинку, программа (ABBYY FineReader, встроенный OCR в Acrobat, «Текст из картинки» в OneNote) выделяет строки и символы, проверяет орфографию и выдаёт редактируемый документ (DOCX, TXT).
| Вид сканера | Для чего |
|---|---|
| Планшетный | Страницы книг, договоры, фото на стекле |
| Ручной | Узкие листы «на ходу» |
| В составе МФУ | Домашний и офисный ввод |
| Штрих-кода | Код товара, не произвольный текст |
После OCR текст редактируют вручную: исправляют ошибки распознавания («0» вместо «О»), меняют структуру — абзацы, заголовки. PDF со скана без OCR — это картинка; правки делают в исходнике DOCX или повторяют OCR.
Подробно — базовая информатика, раздел 16; периферия — глава 3.
Форматы электронных книг
Электронная книга — это цифровой документ, структурированный для удобного чтения на экранах устройств, содержащий текст произведения, оглавление, метаданные (автор, название, жанр), шрифтовые и стилевые настройки, иллюстрации, а также поддержку адаптивной компоновки страниц под размер экрана. Такой документ сохраняет семантическую структуру — заголовки, абзацы, цитаты, выделения — и может быть открыт в программных или аппаратных читалках без потери читаемости.
Порой электронными книжками называют сами специализированные устройства для чтения электронных книг.
Форматы электронных книг поддерживают оглавление, метаданные, встроенные изображения (иллюстрациия) и даже стили:
- FB2 – XML-основанный формат электронных книг;
- EPUB – открытый стандарт электронных книг.
FB2 (сокр. от FictionBook 2) разработан в России в середине 2000-х годов группой энтузиастов. Основной идеей было создать человекочитаемый, легко парсимый и структурированный формат, специально ориентированный на художественную литературу.
EPUB — это международный открытый стандарт для электронных книг, основанный на веб-технологиях — XHTML, CSS, XML и ZIP. Разрабатывался как единая альтернатива закрытым форматам, таким как Amazon MOBI или Kindle Format 8. Сейчас именно EPUB используется в Apple Books, Google Play, и многих программных читалках (FBReader, Calibre, Moon+ Reader).