Урок 6 10 класс Тема: «Системы распознавания текста»





Скачать 84.22 Kb.
НазваниеУрок 6 10 класс Тема: «Системы распознавания текста»
Дата публикации09.03.2015
Размер84.22 Kb.
ТипУрок
100-bal.ru > Информатика > Урок

Урок 6 10 класс

Тема: «Системы распознавания текста».
Цели урока:


  • помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, научить распознавать отсканированный текст, передавать и редактировать его в Word.

  • воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости.

  • развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.


Оборудование: ИД, ПК, приложение.ppt, russian.jpg.
План урока:

  1. Орг. момент. (1 мин)

  2. Актуализация знаний. (5 мин)

  3. Теоретическая часть. (10 мин)

  4. Практическая часть. (15 мин)

  5. Д/з (2 мин)

  6. Вопросы учеников. (5 мин)

  7. Итог урока. (2 мин)


Ход урока:
I. Орг. момент.
Приветствие, проверка присутствующих. Объяснение хода урока.
II. Актуализация знаний.
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.
На этом уроке мы научимся создавать преобразовывать отсканированное изображение в текст.

III. Теоретическая часть.
С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.
Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).
Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.
Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.
Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.
При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).
Любой символ можно описать через набор значений параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между данными буквами — в величине углов, которые образует третий отрезок с двумя другими.
При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.
Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
Примеры программ OCR - http://ru.wikipedia.org/wiki/OCR
При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.
Сложность состоит в том, что необходимо распознавать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.
Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером.
Возможно, самая известная программа для распознавания текстов – это FineReader от компании ABBYY. Именно эту программу чаще всего вспоминают, когда речь заходит о системах распознавания.
FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".
FineReader имеет массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания — 176, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования.
Но далеко не все возможности включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы.
Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции — сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования.
FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями.
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов — от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без ни обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление.

Вопросы:


  • Зачем нужны программы распознавания текста?

  • Как происходит распознавание текста?

  • Какие программы распознания текста вы знаете? Какими пользовались?

  • Какое разрешение является оптимальным для сканирования текста, изображений?


III. Практическая часть.
Теперь потренируемся работать с программой ABBYY FineReader. Будем использовать упрощенную версию программы, поставляемую со сканером.

Запустите FineReader и откройте файл D:/ЗАГОТОВКИ/10 класс/урок 6.jpg. Для этого щелкните на кнопке Открыть и выберите файл с изображением.

Распознайте это отсканированное изображение. Для этого нажмите кнопку Распознать. Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки и таблицы. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц.

Если программа произвела анализ страницы неправильно, можно исправить вручную. Для этого щелкните Процесс→Анализ макета страницы.

Блоки - это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки, отсканированной страницы, надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок.

Текст - блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица - этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей.

Картинка - этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.

Результаты распознавания можно сохранить в файл, передать во внешнее приложение, не сохраняя на диск или скопировать в буфер обмена.

Распознанный текст можно отправить в Microsoft Word. Для этого щелкните кнопку Передать в MS Word. Запуститься программа Microsoft Word и откроется распознанный текст, который вы можете редактировать и форматировать, сохранить в файл.
Учащиеся выполняют задание.

IV. Д/з
§ 1.1.5,

Знать, что такое программы распознавания текста, уметь работать с этими программами. Дополнительное задание: установить дома программу OCR и подготовить реферат по какому-либо предмету. Текст распознать в OCR, редактирование и форматирование провести в Word.
V. Вопросы учеников.
Ответы на вопросы учащихся.
VI. Итог урока. Подведение итога урока. Выставление оценок.
На уроке мы познакомились с программами OCR, научились распознавать отсканированное изображение с помощью программы ABBYY FineReader 5.0.

Добавить документ в свой блог или на сайт

Похожие:

Урок 6 10 класс Тема: «Системы распознавания текста» iconТема: «Системы распознавания текста» Цели урока
Цели урока: дать учащимся представление об orc – программах распознавания текста, познакомиться с возможностями данных программ
Урок 6 10 класс Тема: «Системы распознавания текста» icon«Системы распознавания текста»
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
Урок 6 10 класс Тема: «Системы распознавания текста» iconМаоу, гимназия №
Тема урока. Системы оптического распознавания документов. ( 7 Системы оптического распознавания документов)
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок №7 Тема: «Системы перевода и распознавания текстов»
Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю...
Урок 6 10 класс Тема: «Системы распознавания текста» icon«Сканирование документа. Система распознавания текста и запись в текстовый документ»
«Современные информационно-коммуникационные технологии в профессиональной подготовке специалистов»
Урок 6 10 класс Тема: «Системы распознавания текста» icon6 класс Урок 7 Кодирование текстовой информации. Практическая работа...
Самостоятельная работа по переводу чисел из десятичной системы счисления в двоичную и наоборот
Урок 6 10 класс Тема: «Системы распознавания текста» iconРабочая программа по дисциплине опд. Р. 01 Физико-химические методы...
Дисциплина «Физико-химические методы распознавания фальсификации товаров» предполагает научить студентов современным методам распознавания...
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок географии 9 класс Тема: «Транспорт России»
«транспорт», «транспортная система», «транспортная магистраль», «транспортные узлы»; системы фактов, отображающих реальную действительность...
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок литературы. 5 класс. Тема: Е. Л. Шварц. «Сказка о потерянном времени»
...
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок русского языка в 5-ом классе Тема: «Что изучает стилистика....
Задачи: формирование умения определять речевую ситуацию текста, видеть стилистические особенности текста, создавать текст по заданной...
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок с использованием икт. Тема урока: «Неравенства с одной переменной и их системы». 8 класс
Учитель математики мбоу «Булгунняхтахская сош им. С. П. Ефремова» Григорьева Татьяна Семеновна
Урок 6 10 класс Тема: «Системы распознавания текста» iconМногоуровневые системы распознавания объектов в сканирующей зондовой микроскопии
Правления ксарс – А. Лесникова, Ю. Белозерова, Т. Громова, Н. Камильери, А. Курышев, М. Ломакина, И. Ляхтейнен, И. Маликова
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок по физике. Тема: «Термодинамика. Решение задач»
Открытый урок по литературе. Тема: Нравственные уроки в сказке К. Паустовского «Теплый хлеб», 5 в класс
Урок 6 10 класс Тема: «Системы распознавания текста» iconТема: Тема, проблема текста
Познавательный аспект: дать понятие «проблема», речевые клише для определения проблемы, установить связь проблемы, обсуждаемой автором...
Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок словесности в 9-ом классе. Тема: «Языковой анализ художественного...

Урок 6 10 класс Тема: «Системы распознавания текста» iconУрок 1 Тема: Язык как средство общения. Тип урока. Вводный урок
М/п: ориентироваться в учебнике (на развороте, в оглавлении, условных обозначениях), извлекать информацию из разных источников (текста,...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск