Скачать 1.63 Mb.
|
Часть 4. Сканирование и распознавание образовКакой бы формат мы не выбирали в качестве предпочтительного при публикации электронных документов, если нужно получить электронную копию документа, существующего только на бумажном носителе (копию книги, журнала, газеты и т.д.), то прежде всего нам нужно отсканировать данный документ. Для этого нужны (кроме компьютера) сканер и программа сканирования. Так как сканируемые документы почти всегда являются многостраничными, необходимо чтобы программа сканирования поддерживала режим пакетного сканирования изображений (когда программа сама пытается отсканировать указанное количество страниц документа), а у сканера имелся автоподатчик страниц (ADF- устройство, «automatic document feeder»). Автоподатчик страниц у сканера существенно облегчает сканирование документа, ведь при его наличии сканер может сам сканировать нужное количество страниц– нужно просто в него вставить пачку страниц, требующих сканирования, и сказать программе сканирования сканировать страницы с автоподатчика, и дальше сканирование будет происходить без участия человека. Однако сканеры с автоподатчиками страниц гораздо более дорогие, чем обычные сканеры, и вследствие этого менее распространены. Однако и на обычном сканере без автоподатчика можно производить пакетное сканирование страниц документа – лишь бы используемое программное обеспечение позволяла выполнять сканирование такого типа (роль ADF-устройства в этом случае придется играть сканировщику). Кроме таких особенностей, как наличие или отсутствие автоподатчика, у сканеров различают следующие основные характеристики:
Однако, если рассматривать сканер как средство «оцифровки» документов, все эти параметры не играют столь уж большой роли: даже при помощи самого «слабого» (т.е. дешевого) сканера можно изготовить практически такие же по качеству электронные копии документа, как и на более мощном (а значит и дорогом) – единственным отличием будет только время, затраченное на подготовку документа. Пакет сканирования и распознавания текста FineReader.Итак, как уже отмечалось, неважно какой сканер у нас имеется – главное чтобы он был, так как основная тяжесть работы ляжет на плечи программы сканирования. По этому желательно, чтобы программа сканирования умела:
В качестве такой программы рассмотрим программу сканирования и распознавания текста FineReader компании ABBYY Software (демо-версию программы можно взять с сайта компании: http://www.abbyy.ru), которая является одной из лидирующих на рынке программных продуктов для сканирования и распознавания документов. Рассмотрим основные шаги при сканировании и распознавании документа. Создание нового пакета изображенийПеред сканированием нового документа для него рекомендуется создать так называемый «пакет», в котором будут храниться как отсканированные изображения документа, так и все настройки относящиеся к этому документу. Для этого необходимо после запуска программы FineReader выбрать в меню команду [Файл→Новый пакет…] и в появившемся окне указать в каком каталоге будет располагаться новый пакет. Настройка параметров сканированияТеперь необходимо настроить параметры сканирования изображений. Для этого необходимо выполнить команду меню [Сервис→Опции…] и в появившемся окне выбрать закладку [Сканирование/открытие]: Если в поле [TWAIN-драйвер сканера] еще не указан сканер, с которым будет работать программа, то его нужно указать при помощи кнопки [Выбрать драйвер]. После этого нужно указать [Использовать интерфейс FineReader], чтобы была возможность включения режима пакетного сканирования. В секции [Обработка изображений] доступны следующие опции сканирования:
Следующую опцию стоит указывать если предполагается не только сканирование страниц, но и распознавание текста (например, если наша цель подготовить электронный документ не в формате DjVU, а, например, в RTF или PDF)
Теперь нужно настроить сам сканер, для этого нужно нажать на кнопку [Настройки сканера] в секции [Сканер] текущего окна, и в появившемся диалоговом окне указать следующие параметры:
Таким образом, мы произвели настройку параметров сканирования и можно приступать непосредственно к сканированию документа. Сканирование документаДля начала необходимо проверить, насколько соответствуют наши настройки сканирования документу, который мы собираемся сканировать. Для этого можно сделать пробное сканирование при помощи команды меню [Файл→Сканировать изображение]: и спустя некоторое время в нашем пакете появится со сканера изображение страницы документа. Произведя оценку качества изображения и если оно удовлетворяет нашим требованиям можно запустить пакетное сканирование при помощи команды меню [Файл→Сканировать несколько страниц], после чего сканер либо начнет сканировать страницы документа либо с автоподатчика (если есть), либо со стекла делая паузы между страницами (см. выше описание параметра «Пауза между страницами»). Если же качество по каким-нибудь причинам не удовлетворяет, необходимо удалить пробное изображение из пакета, зайти в настройки сканера и поправить параметры отвечающие за обнаруженные дефекты изображения, после чего опять произвести пробное сканирование документа. После того, как документ будет полностью отсканирован, мы получим набор изображений страниц документа в формате TIF, из которых можно после некоторой предварительной обработки построить документ в формате DjVU. Распознавание документа.Если мы решили создавать электронный документ в формате, подразумевающем хранение текста как набора букв и цифр (т.е. не в формате DjVU), то после сканирования необходимо произвести распознавание текста, хранящегося в изображениях документа. Настройку параметров распознавания текста можно произвести при помощи команды меню [Сервис→Опции…] (закладка [Распознавание]): где указать основные характеристики распознаваемого текста. Запуска процесса распознавания можно воспользоваться командой меню [Процесс→Распознать] (распознается только текущее изображение) или [Процесс→Распознать все] (распознаются все нераспознанные изображения пакета): после чего программа проанализирует изображения пакета, разметит в каждом изображении блоки различных типов (текст, таблица, изображение) и произведет распознавание документа в соответствии с размеченными блоками. Рабочая область FineReader приобретет следующий вид: На рисунке видно, какие блоки на странице разметил FineReader (верхняя левая и нижняя часть рабочей области программы) и как он эти блоки распознал (правая верхняя часть рабочей области программы). Если мы не согласны с расстановкой, типами или порядком следования блоков на странице, мы можем отредактировать их, задать другой тип или порядковый номер (при помощи контекстного меню, выпадающем при правом щелчке мыши на блоке): после чего необходимо произвести распознавание повторно. Исправление ошибок распознаванияПри всем качестве распознавания, FineReader не дает 100% точного распознавания документа (участки, в точности распознавания которых программа не уверена, выделяются цветом в окне, где показывается результат распознавания – см. рис. выше). Поэтому после сканирования и распознавания документа необходимо производить проверку документа. Проверку и исправление ошибок распознавания можно производить как непосредственно в FineReader-е перед сохранением электронного документа, так и после его сохранения в редакторе, соответствующем формату хранения электронного документа (например, при помощи Word для форматов RTF и DOC). В FineReader-е «работа над ошибками» начинается с команды меню [Сервис→Проверка]: после чего в интерактивном режиме обработать неуверенно распознанные участки документа: Сохранение документаПосле того, как мы исправили ошибки распознавания в документе необходимо его сохранить. Для этого сначала нужно определить при помощи команды меню [Сервис→Опции…] (закладка [Форматирование]) как мы желаем сохранить текст – либо сохранить полное оформление документа, либо сохранить только начертание и размер шрифта, либо не сохранять оформление документа, а так же сохранять или нет картинки: После того, как мы определились с этими параметрами, можно либо сохранить документ (или его часть) в файле нужного формата при помощи команды меню [Файл→сохранить текст как]: либо при помощи команды [Файл→Передать все страницы] (или [Файл→Передать выбранные страницы]) передать распознанный документ (или его часть) в соответствующую программу: после чего будет запущена выбранная программа с нашим документом в качестве редактируемой (рабочей) информации. |
Российской Федерации Национальный фонд подготовки кадров Барнаульский... Информационные технологии для пользователей библиотеки образовательного учреждения | Методическое пособие по проведению деловых игр «case study» министерство... Дмитриев М. Н. Кошечкин С. А. Методическое пособие по проведению деловых игр «case study» | ||
Правила приема на обучение в Национальный исследовательский Томский государственный университет по образовательным программам высшего образования программам подготовки научно-педагогических... | Российской федерации Учебно-методическое объединение вузов Российской Федерации по образованию в области физической культуры на базе Федерального государственного... | ||
Методическое пособие для педагогов по организации школьного телекоммуникационного... ... | Российской Федерации Национальный исследовательский Томский государственный университет Специальность 032001 – Документоведение и документационное обеспечение управления | ||
Практика использования сервисов интернета в образовании Икт) — одно из приоритетных направлений в образовании, в том числе и в федеральном проекте информатизации системы образования (исо),... | Российской Федерации Российский государственный профессионально-педагогический... ... | ||
Научное обоснование и оптимизация подготовки управленческих кадров... Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Первый Московский государственный... | Министерство образования и науки российской федерации государственное... Специальность 071500. 62 «Народная художественная культура» Профиль подготовки: Руководство любительским театром | ||
Национальный фонд подготовки кадров С 15 мая по 10 июня 2012 года прошел заочный тур Первой Всероссийской студенческой Олимпиады "Физика и перспективные нанотехнологии".... | Министерство образования Российской Федерации Владимирский филиал... Доктор экономических наук К. В. Хартанович (Владимирский Филиал Российской Академии Государственной Службы при Президенте Российской... | ||
Основная образовательная программа высшего профессионального образования... «Новосибирский национальный исследовательский государственный университет» (Новосибирский государственный университет, нгу) | Программа учебной дисциплины "Культура здоровья" министерство образования... Орловский государственный педагогический институт, русский язык и литература, учитель русского языка и литературы | ||
Конкурса для учителей и преподавателей 8 сентября 2009 г Компания "ДеЛайт 2000" и Национальный фонд подготовки кадров подвели итоги всероссийского конкурса для учителей и преподавателей | Рабочая программа элективного курса по физике «Физический эксперимент» 9 класс Элективные курсы в профильном обучении: Образовательная область “Естествознание”/Министерство образования РФ – Национальный фонд... |