Скачать 84.22 Kb.
|
Урок 6 10 класс Тема: «Системы распознавания текста». Цели урока:
Оборудование: ИД, ПК, приложение.ppt, russian.jpg. План урока:
Ход урока: I. Орг. момент. Приветствие, проверка присутствующих. Объяснение хода урока. II. Актуализация знаний. При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. На этом уроке мы научимся создавать преобразовывать отсканированное изображение в текст. III. Теоретическая часть. С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов. Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word. Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек. При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между данными буквами — в величине углов, которые образует третий отрезок с двумя другими. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу. Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают. Примеры программ OCR - http://ru.wikipedia.org/wiki/OCR При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст. Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ. Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером. Возможно, самая известная программа для распознавания текстов – это FineReader от компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о системах распознавания. FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания — 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования. Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы. Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции — сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования. FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения. Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов — от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление. Вопросы:
III. Практическая часть. Теперь потренируемся работать с программой ABBYY FineReader. Будем использовать упрощенную версию программы, поставляемую со сканером. Запустите FineReader и откройте файл D:/ЗАГОТОВКИ/10 класс/урок 6.jpg. Для этого щелкните на кнопке Открыть и выберите файл с изображением. Распознайте это отсканированное изображение. Для этого нажмите кнопку Распознать. Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки и таблицы. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Если программа произвела анализ страницы неправильно, можно исправить вручную. Для этого щелкните Процесс→Анализ макета страницы. Блоки - это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки, отсканированной страницы, надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Текст - блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки. Таблица - этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Картинка - этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки. Результаты распознавания можно сохранить в файл, передать во внешнее приложение, не сохраняя на диск или скопировать в буфер обмена. Распознанный текст можно отправить в Microsoft Word. Для этого щелкните кнопку Передать в MS Word. Запуститься программа Microsoft Word и откроется распознанный текст, который вы можете редактировать и форматировать, сохранить в файл. Учащиеся выполняют задание. IV. Д/з § 1.1.5, Знать, что такое программы распознавания текста, уметь работать с этими программами. Дополнительное задание: установить дома программу OCR и подготовить реферат по какому-либо предмету. Текст распознать в OCR, редактирование и форматирование провести в Word. V. Вопросы учеников. Ответы на вопросы учащихся. VI. Итог урока. Подведение итога урока. Выставление оценок. На уроке мы познакомились с программами OCR, научились распознавать отсканированное изображение с помощью программы ABBYY FineReader 5.0. |
Тема: «Системы распознавания текста» Цели урока Цели урока: дать учащимся представление об orc – программах распознавания текста, познакомиться с возможностями данных программ | «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий... | ||
Маоу, гимназия № Тема урока. Системы оптического распознавания документов. ( 7 Системы оптического распознавания документов) | Урок №7 Тема: «Системы перевода и распознавания текстов» Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю... | ||
«Сканирование документа. Система распознавания текста и запись в текстовый документ» «Современные информационно-коммуникационные технологии в профессиональной подготовке специалистов» | 6 класс Урок 7 Кодирование текстовой информации. Практическая работа... Самостоятельная работа по переводу чисел из десятичной системы счисления в двоичную и наоборот | ||
Рабочая программа по дисциплине опд. Р. 01 Физико-химические методы... Дисциплина «Физико-химические методы распознавания фальсификации товаров» предполагает научить студентов современным методам распознавания... | Урок географии 9 класс Тема: «Транспорт России» «транспорт», «транспортная система», «транспортная магистраль», «транспортные узлы»; системы фактов, отображающих реальную действительность... | ||
Урок литературы. 5 класс. Тема: Е. Л. Шварц. «Сказка о потерянном времени» ... | Урок русского языка в 5-ом классе Тема: «Что изучает стилистика.... Задачи: формирование умения определять речевую ситуацию текста, видеть стилистические особенности текста, создавать текст по заданной... | ||
Урок с использованием икт. Тема урока: «Неравенства с одной переменной и их системы». 8 класс Учитель математики мбоу «Булгунняхтахская сош им. С. П. Ефремова» Григорьева Татьяна Семеновна | Многоуровневые системы распознавания объектов в сканирующей зондовой микроскопии Правления ксарс – А. Лесникова, Ю. Белозерова, Т. Громова, Н. Камильери, А. Курышев, М. Ломакина, И. Ляхтейнен, И. Маликова | ||
Урок по физике. Тема: «Термодинамика. Решение задач» Открытый урок по литературе. Тема: Нравственные уроки в сказке К. Паустовского «Теплый хлеб», 5 в класс | Тема: Тема, проблема текста Познавательный аспект: дать понятие «проблема», речевые клише для определения проблемы, установить связь проблемы, обсуждаемой автором... | ||
Урок словесности в 9-ом классе. Тема: «Языковой анализ художественного... | Урок 1 Тема: Язык как средство общения. Тип урока. Вводный урок М/п: ориентироваться в учебнике (на развороте, в оглавлении, условных обозначениях), извлекать информацию из разных источников (текста,... |