Перейти к основному содержимому

Офисные форматы документов - DOCX, ODT, PDF

Всем

Офисные форматы

Программы для работы с текстом

Перед форматами файлов полезно различать типы программ:

ТипЗадачаПримеры
Текстовый редакторНабор символов без богатого оформленияБлокнот, Notepad++, VS Code
Редактор кодаТекст программы: подсветка, отступы, поискVS Code, PyCharm
Текстовый процессорОформленный документ: стили, таблицы, колонтитулыWord, Writer, Google Docs
НИС (настольная издательская система)Вёрстка для печати и PDF высокого качестваInDesign, Scribus, Publisher

Текстовый редактор сохраняет в основном последовательность знаков (.txt, .md, исходный код). Текстовый процессор хранит ещё параметры абзацев, шрифтов, колонтитулов, встроенные рисунки и таблицы (.docx, .odt). НИС нужна, когда важна компоновка полос — журнал, буклет, плакат.

Подробная школьная теория — базовая информатика, раздел 16. Практика в Word — Работа с Microsoft Word.

Табличные процессоры

ПрограммаНазначение
Microsoft ExcelСтандарт в Windows и офисе
LibreOffice CalcБесплатная альтернатива, формат ODS
GnumericТаблицы в среде GNOME (Linux)
Apple NumbersТаблицы на Mac и iPad
Google SheetsОблачные таблицы в браузере

Теория (функции процессора, книга, лист, ячейка, диаграммы) — базовая информатика, раздел 18. Практика — Работа с Excel, формат XLSX.

Что такое офисная программа?

Офисная программа — это прикладное программное обеспечение, предназначенное для создания, редактирования, оформления и управления документами текстового, табличного, презентационного или почтового типа. Такие программы предоставляют инструменты для ввода текста, форматирования, вставки таблиц, изображений, диаграмм, формул, сносок, колонтитулов, автоматических оглавлений, а также проверки орфографии и грамматики.

Word.png

Формат офисных документов сохраняет не только последовательность символов, но и структуру документа — стили заголовков и абзацев, шрифты, цвета, отступы, интервалы, поля, колонтитулы, сноски, гиперссылки, изображения, таблицы, формулы и метаданные. Обычный текст (например, в формате TXT) содержит только последовательность символов без форматирования, макета и дополнительных элементов. Для отчётов с множеством математических формул (лабораторные по физике, матан, статистика) часто используют LaTeXготовые примеры с разбором.


DOC семейство

DOC (Document) – стандартный редактируемый офисный формат документов. Отличается тем, что позволяет использовать широкий набор инструментов по форматированию текста, следить за орфографией, грамматикой, пунктуацией, формировать документ по шаблону, добавлять таблицы, изображения, сноски и многое другое.

  • DOC – бинарный формат Word (до 2003);
  • DOCX – XML-основанный формат (Office Open XML);
  • ODT – открытый формат OpenDocument (LibreOffice);
  • DOCM – с поддержкой макросов;
  • DOT/DOTX – шаблоны документов.

В 1983 году компания Microsoft представила первый текстовый процессор под названием Multi-Tool Word (позже переименован в Microsoft Word ) для MS-DOS. Формат .DOC стал родным форматом Word. Он был бинарным, то есть содержал данные в нечитаемом человеком виде, что позволяло эффективно хранить сложные элементы, вроде стилей, таблиц, изображений, формул, колонтитулов и списков.

В 2003 году Microsoft объявила новый формат — Office Open XML (OOXML) , который получил расширение .docx (для документов), .xlsx (Excel) и .pptx (PowerPoint). Начиная с Microsoft Office 2007 , .docx становится основным форматом по умолчанию. Однако поддержка старого .doc сохранялась через специальный пакет совместимости.

Формат ODT (OpenDocument) был создан консорциумом OASIS и позже принят как международный стандарт ISO/IEC 26300 с целью противостоять проприетарному формату OOXML и сделать офисные документы более переносимыми и независимыми от одного производителя.

Борьба Microsoft и сообщества открытых стандартов привели к "форматной войне", которая закончилась ничьей - оба формата приняты как международные стандарты.


Симулятор Word

Play ITЗагрузка интерактивного демо…


Симулятор Excel

Play ITЗагрузка интерактивного демо…


RTF

RTF (Rich Text Format) – кроссплатформенный формат с базовым форматированием, читаем как обычный текст с RTF-разметкой.

RTF-разметка — это система текстовых команд и управляющих последовательностей, встроенная в документ и описывающая базовые параметры оформления — начертание шрифта, размер, цвет, выравнивание, отступы и простейшие списки. Эта разметка представлена в виде последовательности ASCII-символов, поэтому документ в формате RTF можно открыть и прочитать в любом текстовом редакторе, даже если он не поддерживает форматирование — сама разметка останется видимой.

До появления современных текстовых процессоров данные хранились в виде простого текста (TXT) или в формате RTF (Rich Text Format), который позволял хранить базовое форматирование. RTF был разработан Microsoft в 1987 году как кроссплатформенный формат для обмена документами между разными текстовыми редакторами.


PDF

PDF (Portable Document Format) – стандарт для обмена документами, сохраняющий точное форматирование, может содержать текст, векторную и растровую графику, формы и аннотации.

В начале 1980-х годов, с развитием персональных компьютеров и настольных издательских систем, стало очевидно, что документы выглядят по-разному в зависимости от текстового редактора, установленных шрифтов, принтеров, ОС.

Компания Adobe Systems, основанная Джоном Уорноком и Чарльзом Гешке, работала над технологией описания страниц — языком PostScript, который позволял точно описывать содержимое страницы для печати. И в 1991 году Adobe начала разработку нового формата, который должен был стать платформенно-независимым и сохранять точное оформление документа при передаче между различными устройствами. Первый официальный выпуск состоялся в 1993 году вместе с запуском программы Adobe Acrobat.


OCR — от скана к редактируемому тексту

OCR (Optical Character Recognition) — распознавание текста на изображении: сканер или камера создаёт цифровую картинку, программа (ABBYY FineReader, встроенный OCR в Acrobat, «Текст из картинки» в OneNote) выделяет строки и символы, проверяет орфографию и выдаёт редактируемый документ (DOCX, TXT).

Вид сканераДля чего
ПланшетныйСтраницы книг, договоры, фото на стекле
РучнойУзкие листы «на ходу»
В составе МФУДомашний и офисный ввод
Штрих-кодаКод товара, не произвольный текст

После OCR текст редактируют вручную: исправляют ошибки распознавания («0» вместо «О»), меняют структуру — абзацы, заголовки. PDF со скана без OCR — это картинка; правки делают в исходнике DOCX или повторяют OCR.

Подробно — базовая информатика, раздел 16; периферия — глава 3.


Форматы электронных книг

Электронная книга — это цифровой документ, структурированный для удобного чтения на экранах устройств, содержащий текст произведения, оглавление, метаданные (автор, название, жанр), шрифтовые и стилевые настройки, иллюстрации, а также поддержку адаптивной компоновки страниц под размер экрана. Такой документ сохраняет семантическую структуру — заголовки, абзацы, цитаты, выделения — и может быть открыт в программных или аппаратных читалках без потери читаемости.

Порой электронными книжками называют сами специализированные устройства для чтения электронных книг.

Форматы электронных книг поддерживают оглавление, метаданные, встроенные изображения (иллюстрациия) и даже стили:

  • FB2 – XML-основанный формат электронных книг;
  • EPUB – открытый стандарт электронных книг.

FB2 (сокр. от FictionBook 2) разработан в России в середине 2000-х годов группой энтузиастов. Основной идеей было создать человекочитаемый, легко парсимый и структурированный формат, специально ориентированный на художественную литературу.

EPUB — это международный открытый стандарт для электронных книг, основанный на веб-технологиях — XHTML, CSS, XML и ZIP. Разрабатывался как единая альтернатива закрытым форматам, таким как Amazon MOBI или Kindle Format 8. Сейчас именно EPUB используется в Apple Books, Google Play, и многих программных читалках (FBReader, Calibre, Moon+ Reader).