Часть 3. Средства подготовки электронных изданий Введение В наше время новых информационных технологий все большую популярность приобретают полнотекстовые электронные документы. В отличие от обычных документов на бумажных носителях они обладают рядом неоспоримых преимуществ, например:
общедоступность – электронный документ представленный в сети Internet не нуждается в каком-либо специальном тиражировании, он доступен всем пользователям, где бы они ни находились (единственное требование – наличие доступа у пользователя к сети Internet);
мобильность – подготовленный электронный документ становится общедоступным сразу после его публикации в сети Internet, и в случае необходимости внесения изменений в документ эти изменения, после их внесения, становятся доступными всем читателям этого документа;
дешевизна – распространение электронных документов обходится дешевле распространения документов на бумажных носителях.
Основные форматы хранения электронных документов На данный момент наиболее популярны следующие форматы представления полнотекстовых электронных документов:
Plain-Text «Просто текст» – документ этого формата представляет собой просто файл с текстом, с минимальными возможностями для управления отображения содержимого документа (практически, все управление по отображению сводится к расстановке в документе пробельных символов и переводов строк). Для его просмотра и редактирования не требуется особых программ – в составе любой операционной системы найдутся программы, позволяющие редактировать и просматривать документы данного формата. К достоинствам таких документов относится их очень малый объем – это самый экономичный формат хранения электронных документов.
HTML Hyper Text Mark-up Language («Язык гипертекстовой разметки документов») – на сегодняшний день основной формат представления электронных документов в сети Internet. Документ этого формата представляет собой файл с текстом, в котором есть особые метки («тэги»), управляющие его отображением в специальных программах – браузерах. Хотя на сегодняшний день существует масса программных продуктов, нацеленных на автоматизацию создания электронных документов в этом формате, все же основная масса документов на сегодняшний момент подготавливается вручную. Причиной этого является то, что для электронных документов, публикуемых в Internet, основным свойством (критерием?) является размер, а программы, генерирующие HTML-документы практически всегда «перегружают» документ излишними тэгами. Еще одним недостатком является то, что один и тот же документ в браузерах разных производителей выглядит по-разному.
RTF Reach Text Format («богатый текстовый формат») – на сегодняшний день основной формат первичной подготовки и обработки текстов, предназначенных для транспортировки между различными текстовыми процессорами (редакторами). Является, как и HTML, гипертекстовым языком разметки текста. Отличается от HTML тем, что позволяет встраивать непосредственно в документ различные объекты (например, картинки – в HTML они хранятся как внешние файлы). Достоинства формата – поддержка его ведущими текстовыми процессорами (MS Word, Adobe PageMaker и т.д.), общеизвестность, а так же реализация принципа «один документ – один файл». Недостаток – подчас гигантские размеры файлов.
DOC DOC – «родной» формат текстового процессора (редактора) Microsoft Word. В силу сверхпопулярности последнего является практически основным форматом подготовки электронных документов. По своим возможностям соответствует RTF, однако документы этого формата имеют гораздо меньший объем в силу того, что информация хранится в запакованном виде.
PDF Portable Document Format («формат переносимых документов») – формат, разработанный фирмой Adobe. Предназначен для однообразного отображения документа на различных системах и при печати его на различных устройствах (все предыдущие форматы этим не отличаются, документы в этих форматах видоизменяются в зависимости от массы причин – от используемого программного обеспечения, от разрешающей способности системы, при помощи которой отображается документ, и т.д., даже от принтера, установленного в системе). Основной недостаток – его коммерческая направленность. Практически все программное обеспечение, предназначенное для подготовки документов в этом формате, является коммерческим.
DjVU Сравнительно новый формат представления электронных документов, поддерживаемый компанией LizardTech. Отличается от всех предыдущих форматов тем, что не является форматом хранения текста – документ в этом формате представлен в виде изображения. Предназначен в первую очередь для представления электронных документов, полученных путем сканирования с бумажных оригиналов. Данный формат приобретает в последнее время все большую популярность по следующим причинам:
Простота и высокая скорость изготовления документов.
Наличие свободно распространяемого (freeware) программного обеспечения для создания и просмотра электронных документов данного формата.
Малый объем создаваемых электронных документов (достигается за счет уникальной технологии хранения документа)
Явная направленность формата на публикацию документов в Internet.
Обычно при выборе основного формата представления полнотекстовых электронных документов оцениваются следующие факторы:
Скорость изготовления электронного документа
Размер получаемого электронного документа
Качество получаемого электронного документа
В силу третьего фактора, исключим из рассмотрения формат Plain-Text как самый «маловыразительный» (в смысле внешнего оформления документов).
Стоит так же отметить специфику подготавливаемых документов – в основном это книги, хранящиеся в фондах библиотеки учебного заведения (книги довольно таки популярные среди читателей библиотеки, но имеющиеся в недостаточном количестве).
Проведя исследования среди указанных выше форматов, библиотека БГПУ остановила свой выбор на формате DjVU, как наиболее удовлетворяющий выбранным критериям.
В качестве примера исследования приведем сравнение между форматами в скорости изготовления и объеме результирующего файла при подготовке электронной копии документа состоящего из 25 страниц:
Таблица 1. Сравнение скорости создания электронного документа в различных форматах
Формат
| HTML
| RTF
| DOC
| PDF
| DjVU
| Время изготовления
| 2,5 ч
| 1,25 ч.
| 1,25 ч.
| 1,25 ч.
| 10 мин.
| Таблица 2. Сравнение размеров итоговых электронных документов
Формат
| HTML
| RTF
| DOC
| PDF
| DjVU
| Объем конечного документа
| 250 Кб
| 630 Кб
| 620 Кб
| 760 Кб
| 500 Кб
| Из приведенного примера видно явное преимущество формата DjVU перед другими форматами. Можно добавить так же, что у остальных форматов столь высокие результаты обеспечены за счет использования современной системы распознавания текстов FineReader, которая является коммерческим продуктом. В случае невозможности использовать данной системы разрыв между DjVU и остальными форматами значительно увеличился бы. Так же стоит отметить, что в качестве тестового выбирался документ, не содержащий сложных типов форматирования и картинок, что так же повлияло на сравнительную малые объем и скорость подготовки итоговых электронных документов форматов HTML, RTF, DOC и PDF – иначе значения обоих параметров значительно увеличились бы для этих форматов, увеличение же сложности текста практические не влияет на значение этих параметров для формата DjVU.
|