Технологии обработки документов





НазваниеТехнологии обработки документов
страница3/9
Дата публикации20.05.2015
Размер1.43 Mb.
ТипУчебное пособие
100-bal.ru > Информатика > Учебное пособие
1   2   3   4   5   6   7   8   9
ТЕМА 5. ТЕХНОЛОГИЯ ПОИСКА ИНФОРМАЦИИ

В СЕТИ ИНТЕРНЕТ
5.1. Особенности поиска информации в сети Интернет
Каталоги Web охватывают лишь малую долю страниц, в принципе доступных во «Всемирной паутине». И здесь вступают в игру поисковые серверы наподобие AltaVista, HotBot или Lycos. Вы сообщаете такому серверу, что вас интересует, и он находит все известные ему Web-страницы, соответствующие вашему запросу. Для того, чтобы индекс по­исковой системы не устаревал, используются специальные программы, именуемые «пауками» (spiders) или «личинками» (bots), которые двигаются по связям от страницы к странице, фиксируя на каждой все ее содержимое или какой-то его фрагмент. В конечном счете, таким путем удается пройти значительную часть «Паутины».

Если вы разыскиваете какую-то информацию общего характера, начинайте с каталога Web. Например, можно воспользоваться каталогом Yahoo. Там вполне понятная классификация рубрик, которые охватывают достаточно большой спектр информации.

Поисковые серверы способны охватить гораздо больше, чем каталоги. Среди наиболее известных поисковых серверов можно назвать сле­дующие:

– AltaVista (http://www.altavista.digital.com),

– InfoSeek (http://www2.infossek.com),

– Excite (http://www.excite.com),

– Lycos (http://www.lycos.com),

– InfoSeek Ultra (http://ultra.infoseek.com) – новая версия InfoSeek. Этот сервер выдает результаты немедленно.

Не беспокойтесь об избыточности – синонимы помогут сузить поле вашего поиска. Отбросьте незнаменательные слова типа предлогов и артиклей (of, to, and, the и т. п.) – большинство систем поиска их все равно игнорирует.

Язык и правила запросов на большинстве поисковых серверов схожи, но, тем не менее, существуют некоторые отличия. В некоторых серверах для поиска фразы целиком необходимо в запросе между словами поставить знак «+» или служебные слова И/ИЛИ AND/OR (InfoSeek), в других – достаточно просто ввести всю фразу (AltaVista). Как правило, на всех поисковых серверах существует ссылка на страницу, где приведены основные правила и советы по построению запросов.

Зачастую тот же запрос на другом сервере дает совершенно иные результаты.

Среди бесплатных программных продуктов, обеспечивающих подобную периодическую загрузку выбранного спектра информации можно указать программу FreeLoader 2.0 (http://www.freeloader.com), которая позволяет составить расписание загрузки таким образом, чтобы избежать пиковых часов Интернет; взамен придется мириться с рекламны­ми шапками над панелью инструментов, и PointCast (http://www.point­cast.com), поставляющую новости по излюбленным темам, используя спе­циальный хранитель экрана в Windows для показа заголовков новостей.

5.2. Советы по поиску информации в сети Интернет
• Помнить про возможности Интернета. Чаще принимать решение о поиске.

• Искать не только информацию, но и ресурсы.

• Главная техника – служебные слова.

• Использовать служебные слова:

– скачать, download, free;

– pdf, ppt, doc, zip, rar, mp3;

– форум, каталог, ссылки, forum, links;

– для начинающих, первые шаги, руководство, советы, правила;

– конспект лекций, обзор, учебное пособие;

– « – это».

• Yandex понимает падежи и склонения, Google – нет.

• Можно использовать для поиска тематические каталоги, например, «вузы», «технические университеты», «культура» и т. д., и «энциклопедии», например, Wikipedia.org.

• Для ускорения поиска в сети Интернет использовать слова и фразы, встречающи­еся в заголовке документа, например, «реферат», «учебное пособие», «учебно-методическое пособие», «практикум», «лабораторная работа» и т. д.

• Можно указать автора статьи или название сферы образования, культуры, техники и т. п., к которой может относиться искомая статья.

• Задавать вопросы на тематических форумах, причем одновремен­но на нескольких. Кто знает – подскажет.

• Использовать для поиска одновременно несколько поисковых сер­веров (на сервере Yandex.ru есть ссылки на серверы Google, MSN, Ya­hoo, Rambler).

• Использовать функции расширенного поиска информации, если они реализованы.

• Для расширения сферы поиска составлять строку запроса из отдельных слов.

• Для сужения сферы поиска составлять строку запроса из фраз, т. е. цепочки слов, заключенной в кавычки.

• Отличайте слова от фрагментов слов. Независимо от того, являет­ся введенная последовательность словом или цепочкой знаков в составе какого-либо другого слова, Lycos трактует ее одинаково. Поэтому, если вы просто введете последовательность graph – граф, график, то Lycos бу­дет искать еще и graphs – графы, графики, и graphics – проектирование, графика, и graphite – графит. Если вы хотите ограничить поиск в Lycos в точности введенным вами словом, поставьте после него точку (.).

• Использовать поиск в регионе, например, в Уфе.

• Пользуйтесь закладками. Сделайте закладку на первую страницу результатов поиска, чтобы иметь возможность к ней вернуться.

• Не тратьте время на перелистывание. В Internet Explorer или Net­scape Navigator просто нажмите комбинацию клавиш +F и введите слово, которое ищете. Браузер перенесет вас к тому месту, где искомое слово первый раз встречается на текущей странице.

• Для определения сферы поиска слова и фразы в строке запроса соединять знаками (&) – (обязательно наличие соединяемых слов из строки запроса), (|) – (не обязательно наличие какого-либо из соединяемых слов строки запроса), (-) – (исключить из поиска).

• Убирайте не относящиеся к делу слова. Хотя Lycos не поддерживает поиска с использованием булевых операторов, для усовершенствования поисковой процедуры можно воспользоваться знаком минус (-). При этом снижается вероятность появления в результатах поиска слов, помеченных в запросе этим знаком. Например, введите запрос business-monkey («бизнес-обезьяна»), если вы хотите найти все о бизнесе, но не интересуетесь валянием дурака и темными делишками (тем, что по-анг­лийски называется monkey business).

• Если вас утомил ввод булевых операторов, вы можете использовать вместо них символы: амперсанд (&) вместо AND, вертикальную черту (|) вместо OR, восклицательный знак (!) вместо NOT и тильду (~) вместо NEAR. Например, вводите богарт ~ хэмметт вместо богарт NEAR хэмметт.

• AltaVista может искать текст в элементах <...>. По запросу вам будут выданы все страницы, содержащие отсылку к файлу «comet.jpg» в элементе <...>.

• Использовать поиск документов на определенном языке, например, на русском или английском.

• Поисковая система на сервере Excite неплохо работает с повседневными разговорными формами, так что такие запросы, как Where is a good Italian restaurant in New York City? («Где в Нью-Йорке есть хороший итальянский ресторан?») или Learn how to speak Chinese («Узнать, как научиться говорить по-китайски»), могут оказаться на удивление эф­фективными.

• Поиск источников цитат. Чтобы определить источник коротких цитат, например, «То, что не разрушает меня, делает меня крепче», просто введите нужную цитату в Excite. Не беда, если вы не помните, как она выглядит в точности: с высокой вероятностью выданные страницы не только подскажут вам, откуда взялось высказывание, но и дадут его точную форму.

• Помимо поиска в Web и Usenet, сервер InfoSeek позволяет искать информацию о компаниях, электронные адреса, а также заглядывать в файлы FAQ (часто задаваемых вопросов). Для этого просто выберите ка­талог, по которому вы собираетесь вести поиск в разворачивающемся списке на главной поисковой странице.

• Не забывайте про заглавные буквы. Разыскивая имена собственные, пишите их в запросе с заглавной буквы, – например, Hammer, а не hammer.

5.3. Поиск «по-русски»
В Интернете немало интересных русских текстов, так что необходимость поискать информацию на русскоязычных страницах возникает довольно часто. Однако эффективно это делать мешают особенности, во-первых, русского алфавита, а во-вторых, русского словоизменения.

Главная проблема русского алфавита – неединственность: на одних русскоязычных узлах господствует КОИ-8, на других – кодировка Windows (1251). Не так уж мало, особенно за рубежом, и транслитерированных страниц (этот способ представления русских текстов иногда называют Ruglish), часто не продублированных ни одной из собственно русских кодировок. Добавьте к этому еще и отсутствие единого общепринятого способа транслитерации.

Не следует также забывать, что, в отличие от латиницы, где запросы можно вводить одними строчными буквами, а сервер будет искать также слова с соответствующими заглавными, для русских букв этого, естественно, не происходит. Так что в запросе о текстовом редакторе «Лексикон» лучше написать «ЛЕКСИКОН OR Лексикон».

Другая проблема, как уже говорилось, связана с русской морфологией. С транслитерацией Yandex, увы, не работает – слишком много существует разных ее форм, иногда непоследовательных (одно и то же сло­во на одной и той же странице может быть написано по-разному). Поиск на подобных страницах очень труден в любом случае, поэтому будем на­деяться, что их авторы рано или поздно (лучше, конечно, раньше, чем поз­же) перейдут с латиницы на кириллицу. А в кириллице работать с поисковой страницей CompTek – одно удовольствие: http://www.cti.ru/alta.html.

Среди русскоязычных поисковых серверов чаще всего используется Rambler http://www.rambler.com.

Контрольные задания
1. Понятие гипертекста.

2. Поисковые каталоги и серверы.

3. Советы по поиску информации в Интернете.



ТЕМА 6. КОМПЬЮТЕРНАЯ ГРАФИКА.

ГРАФИЧЕСКИЕ ФОРМАТЫ
Графика – результат визуального представления реального или во­ображаемого объекта, полученный традиционными методами: рисовани­ем (пастель, уголь, тушь, карандаш) или печатанием (литография) художественных образов.

Компьютерная графика – графика, включающая любые данные, предназначенные для отображения на устройстве вывода. В компьютерной графике различают понятия «создание» и «визуализация изображения».

Изображение – визуальное представление реального объекта, зафиксированное человеком с помощью некоторого механического, электрического или фотографического процесса.

Интерактивная компьютерная графика – способность компьютерной системы создавать графику и одновременно вести диалог с человеком.

Графический формат – способ записи данных, описывающих гра­фическое изображение. Графические форматы разработаны для эффектив­ной и логичной организации и сохранения графических данных в файле.

Графические файлы – файлы, в которых хранятся любые типы гра­фических данных, предназначенные для последующей визуализации. Спо­собы организации этих файлов называются графическими форматами.

Графические данные делятся на два класса:

– векторные данные;

– растровые данные (raster=bitmap).

Векторные данные – данные, которые используются для представления прямых многоугольников и кривых или любых объектов, которые могут быть созданы на их основе с помощью определения в численном виде ключевых точек. Программа воспроизводит линии посредством соединения ключевых точек, и с векторными данными всегда связана информация об атрибутах и набор соглашений, позволяющих программе начертить векторный объект. Вектор – ключевые точки, соединенные линией.

Растровые данные – набор числовых значений, определяющих цве­та отдельных пикселей. Пиксели – это цветовые точки, расположенные на правильной сетке и формирующие образ. Технически растром является массив числовых значений, задающих цвета отдельных пикселей при ото­бражении образа на устройства вывода. Для обозначения числового значения в растровых данных соответствующего цвета пикселя в изображе­нии используется термин «пиксельное значение».

Рисунок, созданный в Paint представляет собой набор точек, каждая из которых может иметь свой цвет. Векторный рисунок является набором кривых, которые могут ограничивать области определенного цвета. Цвет может быть сплошным, или градиентным, то есть, плавно переходящим в определенном направлении в другой.

У векторных изображений есть интересная особенность. Они, в от­личие от растровых, не изменяют качества при масштабировании и повороте. Во многих случаях для компьютера обработка векторной графики легче, чем растровой. Однако, если изображение имеет массу мелких деталей, файл, хранящий его в векторном виде, может иметь огромный размер, так как число кривых будет большим.

Если каждый из форматов имеет свои достоинства и недостатки, важно уметь их отличать и выбирать нужный, когда это необходимо.

Независящий от аппаратного обеспечения формат gif был разработан в 1987 году для передачи растровых изображений по сетям. В 1989 году были добавлены поддержка прозрачности и анимации. Основное ограничение формата gif состоит в том, что цветное изображение может быть записано только в режиме 256 цветов. Для полиграфии этого явно недостаточно.

В Jpeg лучше сжимаются растровые картинки фотографического качества, чем логотипы или схемы, – в них больше полутоновых переходов, среди однотонных заливок же появляются нежелательные помехи. Лучше и с меньшими потерями сжимаются большие изображения для Web или с высокой печатной резолюцией (200–300 и более dpi), чем с низкой (72–150 dpi), т. к. в каждом квадрате 8х8 пикселей переходы получаются более мягкие, за счет того, что их (квадратов) в таких файлах больше. Строго говоря jpeg называется не формат, а алгоритм сжатия, основанный не на поиске одинаковых элементов, а на разнице между пикселями. В этом формате рекомендуется создавать файлы, в которых много однородных заливок (логотипы, надписи, схемы).

Нежелательно сохранять с jpeg-сжатием любые изображения, где важны все ньюансы цветопередачи (репродукции), так как во время сжатия происходит отбрасывание цветовой информации. В jpeg следует сохранять только конечный вариант работы, потому что каждое пересохранение приводит ко все новым потерям (отбрасыванию) данных и к размыванию исходного изображения.

Аппаратно независимый формат tiff на сегодняшний день является одним из самых распространенных и надежных, его поддерживают прак­тически все программы так или иначе связанные с графикой. Tiff является лучшим выбором при импорте растровой графики в векторные программы и издательские системы. Ему доступен весь диапазон цветовых моделей.

Формат bmp – родной формат Windows. Он поддерживается всеми графическими редакторами, работающими под управлением этой опера­ционной системы. Применяется для хранения растровых изображений, предназначенных для использования в Windows и, по сути, больше ни на что не пригоден. Способен хранить как индексированный (до 256 цветов), так и RGB-цвет (16 700 000 оттенков).

Использование bmp не для нужд Windows является распространенной ошибкой новичков. Использовать bmp нельзя ни в Web, ни для печати (особенно), ни для простого переноса и хранения информации.



ПРАКТИЧЕСКИЕ ЗАНЯТИЯ
ТЕМА 1. ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО

РАСПОЗНАВАНИЯ ОБРАЗОВ
Пакет программ FineReader 8.0 Professional
Цель работы
Научиться сканировать, распознавать и редактировать страницу тек­ста в пакете FineReader на русском языке в черно-белом варианте без инвертирования.
Задачи
1. Научиться запускать FineReader.

2. Научиться получать отсканированное изображение текста.

3. Научиться выбирать участок текста для дальнейшего распозна­вания.

4. Научиться распознавать различные типы изображения.

5. Научиться редактировать текст.

6. Научиться сохранять текст в виде файла.

7. Научиться выходить из пакета при окончании работы с ним.

8. Научиться работать в режиме распознавания с обучением.
Последовательность проведения работы
1.1. Запуск FineReader

Для запуска FineReader следует найти в левом нижнем углу экрана кнопку ПУСК, затем последовательно выбирать строки: ПРОГРАММЫ – ABBYY FINEREADER 8.0 PROFESSIONAL EDITION. При этом сканер должен быть включен.

Начало работы с программой приветствует проводник по режи­мам работы (проводник доступен также по команде СПРАВКА – ДОБРО ПОЖАЛОВАТЬ):

Для профессиональной работы необходимо предварительно ознакомиться со всеми возможностями программы, выбрав режим ОБУЧЕНИЕ. Количество типов распознаваемых в среде программы документов впечатляет:

Последний тип (фотография документа) позволяет сканировать и распознавать фотографии документов, выполненных в режиме макросъемки цифровыми фотоаппаратами или камерами сотовых телефонов (в справочных файлах программы приведены советы по улучшению качества снимков).

По команде ОТКРЫТЬ ДЕМО-ПРИМЕР в окно ПАКЕТ будут загружены отсканированные страницы демо-примера, которые можно рас­познать, настраивая среду программы и обучаясь работе с нею.

Программа имеет подробный справочник, позволяющий найти ин­формацию по любому вопросу как по настройкам, так и по проблемам, возникающим при работе с нею:

Программа имеет интуитивно понятный интерфейс. Наиболее пол­ным является командное меню, однако панели кнопок достаточно для вы­полнения всех этапов работы по распознаванию документов с настройками по умолчанию (кнопки пронумерованы в соответствии с порядком работ):

Каждая из кнопок имеет выпадающее меню команд, расширяющих возможности отдельных шагов по сканированию и распознаванию изображений.

1.2. Получение отсканированного

изображения текста
Для сканирования текста необходимо лист сканируемого текста формата А4 положить текстом на стеклянную поверхность сканера так, чтобы верх текста был ближе к петлям крышки сканера, а низ, соответственно, ближе к ручке, за которую сканер открывается. Обычно рядом со стеклом указывается формат листа, подлежащего сканированию, соотношение верха и низа этих указаний такое же, как и у листа текста, под­лежащего сканированию. Затем лист закрывается крышкой сканера (на раз­бираемом в данной работе сканере на границах поверхности стекла при-

сутствует макет размещения страницы



).

Для получения отсканированного изображения необходимо нажать на кнопку СКАНИРОВАТЬ. Можно также воспользоваться мастером сканирования и распознавания SCAN&READ и, нажав метку раскрытия меню команд на графической кнопке SCAN&READ, выбрать команду МАСТЕР SCAN&READ:

В данном случае описывается работа программы сканера HP La­serJet M1005 MFP с драйвером доступа TWAIN. Окно установок сканера открывается по команде меню СЕРВИС – ОПЦИИ, параметры ИСПОЛЬЗОВАТЬ ИНТЕРФЕЙС ABBYY FINEREADER. Доступные при этом настройки сканера можно посмотреть по кнопке НАСТРОЙКИ СКАНЕРА (то же окно будет открываться при выборе команды МАСТЕР SCAN&READ – СКАНИРОВАТЬ, если отметить параметр ЗАПРАШИВАТЬ ОПЦИИ ПЕРЕД НАЧАЛОМ СКАНИРОВАНИЯ):

В представленном окне настроек сканера можно менять незначительное количество параметров, в частности, режим сканирования ЧЕРНО-БЕЛЫЙ позволяет вручную настроить яркость отсканированного изо­бражения (параметр ПОДБОР ЯРКОСТИ).

Разрешение для данного сканера меняется в диапазоне 200, 300 и 600 dpi (количество точек на дюйм отсканированного изображения, – чем выше значение, тем четче полученное изображение и, соответственно, более точное распознавание текста).

Кроме того, ЧЕРНО-БЕЛЫЙ тип изображения обеспечивает более высокую скорость сканирования. Так как установка типа ЧЕРНО-БЕЛЫЙ возможна при выборе параметра ИСПОЛЬЗОВАТЬ ИНТЕРФЕЙС ABBYY FINEREADER, то рассмотрим сначала этот режим работы программы:


Далее откроется окно настроек сканера, в котором можно изменить его настройки и снять отметку параметра ЗАПРАШИВАТЬ ОПЦИИ ПЕ­РЕД НАЧАЛОМ СКАНИРОВАНИЯ.

По завершении сканирования можно начать распознавание документа в среде мастера сканирования. Для успешного распознавания необходимо предварительно задать язык распознавания. Рекомендуется вы­бирать не более 2–3 языков одновременно. В частности, технический текст чаще всего содержит русские и английские слова, поэтому выбор языка РУССКИЙ И АНГЛИЙСКИЙ наиболее предпочтителен (настройки язы­ка можно выполнить на панели инструментов):

Далее попробуем посмотреть на результаты сканирования и нажмем кнопку ОТМЕНА:

1.3. Выбор участка текста

для дальнейшего распознавания
В окне отсканированного изображения можно задать область или блок для распознавания. Это прямоугольник, выделенный штриховой линией. Выделение блока для распознавания выполняется при нажатой левой кнопке мыши, при этом границы прямоугольника для выделенного участка распознаваемого изображения можно перемещать. Если блок не выделен, то можно предоставить программе возможность разбить изо­бражение на блоки различного типа (текст, таблица, изображение, штрих-код), нажав на кнопку АНАЛИЗ МАКЕТА СТРАНИЦЫ на панели инструментов фрейма с отсканированным изображением:

Пример выделения блока:

Объект Лупа (на рисунке сопровождается голубым эластичным прямоугольником) позволяет просматривать отсканированное изобра­жение в увеличенном масштабе с помощью щелчка левой кнопкой мыши по произвольной точке изображения.

После выбора области изображения производим распознавание по кнопке РАСПОЗНАТЬ. Результат увидим в правом окне программы:

1.4. Распознавание различных типов

изображения
Как видим, окно программы на этом этапе разделено на 4 фрейма (окна). Левый фрейм с заголовком ПАКЕТ содержит макеты отсканированных страниц. Здесь по правой кнопке мыши на любой из страниц может быть выполнена одна из команд:

Фрейм ИЗОБРАЖЕНИЕ содержит отсканированную страницу. Фрейм ТЕКСТ содержит распознанный вариант изображения. Нижний фрейм содержит отсканированное изображение для синхронного перемещения (по щелчку левой кнопки мыши, при этом выделенный участок будет выделен желтым цветом) между отсканированным и распознанным текстом.

Слева от области распознавания размещаются кнопки для работы с изображением:

Для более точного распознавания желательно настроить программу на тип отсканированного изображения, нажав на кнопку ТЕКСТОВЫЙ БЛОК или ТАБЛИЧНЫЙ БЛОК и задав границы блока при нажатой левой кнопке мыши для распознавания. Более полные настройки типа распознаваемого изображения можно задать по команде ИЗОБРАЖЕНИЕ командного меню:





Фрейм распознанного текста и фрейм укрупненного изображения можно использовать при редактировании (для каждого фрейма можно настроить масштаб просмотра. Положение и масштаб фреймов можно настроить по команде ВИД командного меню).

Фрейм распознанного текста (ТЕКСТ) содержит панель инструментов для редактирования текста, аналогичную панели форматирования программы MS Word:


1.5. Редактирование текста
Распознанный текст может содержать ошибки вследствие наличия ошибок в оригинале или некачественного сканирования и рас­познавания. В этом случае его необходимо отредактировать.

Фрейм с распознанным текстом отсканированной страницы содер­жит ошибки. Они выделены голубым цветом. Для исключения возможных орфографических ошибок в результатах распознавания необходимо выполнить проверку текста, нажав на кнопку ПРОВЕРИТЬ.

При этом появится окно результатов проверки распознанного текста, в котором указываются слова с ошибками орфографии (согласно встроенным словарям языка распознавания), и отмечается их место как в отсканированном изображении, так и в распознанном тексте:

Редактировать текст можно как в окне проверки, так и в окне (фрей­ме) с распознанным текстом. Кстати, верхняя часть окна ПРОВЕРКА со­держит отсканированный текст, которым можно воспользоваться в качестве подсказки. Редактирование осуществляется обычным клавиатурным вводом. Увеличенная часть текста, представленная в нижнем окне, в окне уменьшенного изображения выделяется синей рамкой.

1.6. Сохранение текста в виде файла




Текст, полученный при сканировании, может быть сохранен как в виде файла-рисунка, так и в виде файла-текста. И тот и другой файл следует сохранять в заранее созданный каталог под уникальными именами.

Для сохранения файла в виде рисунка необходимо щелкнуть мышью в окне ИЗОБРАЖЕНИЕ, затем последовательно выбрать команды: ФАЙЛ – СОХРАНИТЬ РЕЗУЛЬТАТЫ – СОХРАНИТЬ ИЗОБРАЖЕНИЯ, после чего возникнет окно:

В графу ИМЯ ФАЙЛА следует ввести уникальное имя файла. Из ти­пов файлов следует выбрать файл поддерживаемый тем графическим редактором, которым вы собираетесь в дальнейшем этот файл обрабатывать.

Для сохранения текста, распознанного пакетом FineReader, необходимо щелкнуть мышью не в окне отсканированного изображения, а в окне распознанного текста. Затем последовательно выбрать команды: ФАЙЛ – СОХРАНИТЬ РЕЗУЛЬТАТЫ – СОХРАНИТЬ СТРАНИЦЫ, после чего в открывшемся окне назначить тип файла, куда собираемся сохранять результаты распознавания, ввести в графу ИМЯ ФАЙЛА его уникальное имя и нажать кнопку СОХРАНИТЬ:


Текст, сохраненный в формате .rtf, впоследствии может быть открыт и прочитан в текстовом редакторе MS Word с сохранением элементов форматирования. По умолчанию сохранение текста возможно в форматах следующих приложений:

1.7. Выход из пакета

по окончании работы с ним
Для выхода из пакета достаточно щелкнуть мышью в правом верх­нем углу рабочего окна на крестике или произвести двойной щелчок левой кнопкой мыши в левом верхнем углу на пиктограмме FineReader 8.0. При этом, если окажется, что остался несохраненный файл в одном из окон, появится окно запроса на сохранение.
1.8. Работа в режиме распознавания

с обучением
Для повышения качества распознавания документа, набранного де­коративной (старинной) шрифтовой гарнитурой, например, FuturisXSha­dowC, ParagmaticaShadowC, CyrillicGoth, необходимо воспользоваться спе­циальным режимом распознавания: РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ. Обычно в данном режиме распознаются 1–2 страницы, в результате чего создается пользовательский эталон, который в дальнейшем подключается для распознавания остальных страниц.

Важно помнить, что созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта, и отсканированных с тем же разрешением, что и документ, на основе которого данный эталон создавался.

Выделите блоки на изображении или нажмите кнопку АНАЛИЗ МА­КЕТА СТРАНИЦЫ на панели инструментов окна с отсканированным изо­бражением. Установите режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ (ме­ню СЕРВИС – ОПЦИИ, на закладке РАСПОЗНАВАНИЕ в группе РАС­ПОЗНАВАНИЕ С ОБУЧЕНИЕМ установите переключатель в положение РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ).

Установите язык распознавания – РУССКИЙ. Нажмите кнопку РАС­ПОЗНАТЬ. Появится окно режима обучения программы распознавания графических образов, представленных на отсканированном изображении:

Обучите эталон, распознав слово текста в режиме РАСПОЗНАВА­НИЕ С ОБУЧЕНИЕМ. Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения система сохра­нит созданный эталон (default.ptn) в папке, где хранится пакет. Отредактируйте эталон.

Отмените режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ (на закладке РАСПОЗНАВАНИЕ в группе ОБУЧЕНИЕ установите переключатель в положение РАСПОЗНАВАНИЕ с пользовательским эталоном). После распознавания появится сам распознанный текст.
Практическое задание
1. Запустить FineReader 8.0 Professional.

2. Полностью отсканировать лист русского текста.

3. Распознать отсканированный текст.

4. Сохранить текст в виде файла с расширением .pcx в новый каталог.

5. Сохранить текст в виде файла с расширением .rtf. в созданный при выполнении предыдущего задания каталог.

6. Выйти из пакета FineReader 8.0 Professional.

Время редактирования определяется качеством оригинала, разреше­нием сканирования, количеством символов оригинала, а также опытом и способностями обучающегося в области коррекции и машинописи.

1   2   3   4   5   6   7   8   9

Похожие:

Технологии обработки документов iconУчебное пособие Технологии обработки информации. Технологии хранения,...
Технологии обработки информации. Технологии хранения, поиска и сортировки информации в бд. Учеб. Пособие. М. МиигаиК, 2014. 31с
Технологии обработки документов iconСовершенствование процессов профилирования винтовых канавок и обработки...
Специальность 05. 02. 07 – Технологии и оборудование механической и физико-технической обработки
Технологии обработки документов iconРабочая программа по технологии ориентирована на освоение обучающимися...
«Технология», составленной на основе федерального компонента государственного стандарта основного общего образования, рекомендованной...
Технологии обработки документов iconРабочая программа учебной дисциплины «технологии обработки материалов»
Направление подготовки: 261400. 62 Технология художественной обработки материалов
Технологии обработки документов iconУрок технологии в 5 классе по теме «Технология обработки изделия»
Цели: обобщить знания учащихся по теме: «Технология обработки изделия», защитить презентацию
Технологии обработки документов iconУрок по разделам «Технология обработки ткани, изготовление поясного изделия»
Цели: повторение и систематизация знаний, закрепление умений и навыков по технологии обработки тканей и изготовлению поясного изделия,...
Технологии обработки документов iconПояснительная записка Тематический план дисциплины
Курс Практические работы по технологии обработки металлов дает студентам теоретические знания и помогает овладеть практическими умениями...
Технологии обработки документов iconТехнологии для организации внеаудиторной самостоятельной работы обучающихся
Но одновременно начинают широко использоваться компьютерные технологии, как для поиска нужной информации педагогами и обучающимися,...
Технологии обработки документов iconДокументирование управленческой деятельности
Делопроизводство составляет полный цикл обработки и движения документов с момента их создания (или получения) до завершения исполнения...
Технологии обработки документов iconЛабораторная работа №3
«Технологии обработки, автоматизированного реферирования и аннотирования текстов на естественном языке»
Технологии обработки документов iconОткрытые образовательные технологии
Технология совокупность приемов и способов получения, обработки и переработки сырья, материалов
Технологии обработки документов iconРабочая программа по технологии в 5-8 классах Учитель технологии: Писцова
М.: Мнемозина, 2012. Она рассматривает подготовку учениц основной школы по разделам «Кулинария», «Создание изделий из текстильных...
Технологии обработки документов iconВопросы к Государственному экзамену
Использование программ обработки текстов, компьютерной графики, макетирования и верстки при составлении рабочих документов, презентационных...
Технологии обработки документов iconСовременные автоматизированные технологии обработки разнородных информационных потоков
Акимова Г. П., Богданов Д. С., Мусатов И. В., Пашкин М. А., Солдатов Д. В., Сомин Н. В
Технологии обработки документов iconМосковский энергетический институт (технический университет)
Профиль(и) подготовки: Машины и технологии высокоэффективных процессов обработки материалов
Технологии обработки документов icon«Технологии изготовления и обработки художественных изделий»
Рабочая программа утверждена на заседании кафедры «Литейно-металлургические процессы и сплавы»


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск