Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ





Скачать 93.83 Kb.
НазваниеЗадача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ
Дата публикации07.03.2016
Размер93.83 Kb.
ТипЗадача
ИСПОЛЬЗОВАНИЕ МУЛЬТИМНОЖЕСТВ В РАСПОЗНАВАНИИ СИМВОЛОВ
О.А. Славин1
Г-н Журден. Честное слово, я и не подозревал, что вот уже более сорока лет говорю прозой. Большое вам спасибо, что сказали.

Жан-Батист Мольер.

« Мещанин во дворянстве»
В статье приводятся примеры использования понятия «мультимножества» в задачах распознавания образов символов. Рассмотрены мультимножества оценок, представлений и классификаций.

Введение

Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ x. Функция классификации формирует ответ в виде набора альтернатив A=(a1, …, am), m<M. Каждая альтернатива ak представляет собой пару <ck, pk>, где ck - код класса, pk - оценка принадлежности к k-му классу. Альтернативы в векторе A отсортированы по убыванию оценок принадлежности. Необходимо отметить, что образ x может не соответствовать ни одному из M классов , поэтому к числу классов добавляется ещё один класс , называемый отказом.

Мы считаем, что серые (полутоновые) или черно-белые (бинарные) образы символов представлены растрами, то есть матрицами R(M, N) размера M × N, элементы Rij которых являются действительными или целыми числами. Функция классификации может оценивать близость к множеству классов как по растрам непосредственно, так и с помощью представления образов символов. В качестве представлений могут выступать, например, наборы признаков, вычисленных для растра, или нормализованные растры.

В статье будут рассмотрены некоторые случаи применения понятий теории мультимножеств в задачах распознавания образов символов, позволяющие органично описывать структуры и алгоритмы распознавания образов символов.

1. Алгоритм 3х5

Распространенной процедурой, предшествующей распознаванию образа символа, является нормализация образа по различным параметрам, например, углу наклона, толщине линий [1] или форме образа [2]. Наиболее часто производят нормализацию по размерам или масштабирование. При этом решается ряд задач, таких как унификация эталонов распознавания и уменьшение размеров объекта распознавания. Последнее обстоятельство может снижать вариативность образов символов, за счет чего повышается качество распознавания на одних и тех же эталонных наборах. Часто перед распознаванием образы кириллицы или латиницы масштабируют до размеров 16 на 16 [3], используются и другие сетки, например, 20×20 и 28×28 [4]. Существуют работоспособные алгоритмы, базирующихся на масштабных сетках 3х5 и 5х3.

Дадим определение сжатия бинарного изображения произвольного размера к серому (полутоновому) образу меньшего размера. Пусть B(m, n) – матрица исходного бинарного растра с размерами m на n. Сначала выполним преобразование матрицы B в матрицу B1(mM, nN) по следующему правилу

B1pq = Blk , где m( l -1 ) < p ml и n( k -1 ) < q nk.

Затем определим матрицу H(M, N) со следующими элементами



Полученный сжатый растр мы будем использовать в качестве вектора, получаемого из матрицы H(M, N) следующим образом

h=(H1,1; H1,2; … H1,M; H2,1; H2,2; … H2,M; ••• HN,1; HN,2; … HN,M ).

Нормализованный на единичную длину вектор h будем называть сжатым образом или сверткой.

В процессе обучения каждый образ из обучающей последовательности будем сжимать до определенного размера, а сжатые образы, рассматриваемые как элементы одного эвклидова пространства, подвергнем алгоритму кластеризации.

Будем использовать понятие алфавита обучения [5], то есть перечня классов, на которые разбита обучающая последовательность. Разнообразные с точки зрения начертания типы символов могут содержать несколько графем, то есть типов начертания, соответствующих одному символу. Например, одному символу русского языка «Д» соответствует несколько графем, таких как ДДдg. Алфавит обучения также учитывает неспособность алгоритма различать графемы, соответствующие различным символам. Например, описанная нормализация образов символов по размеру делает невозможным различение прописных и строчных символов с одинаковым начертанием, таких как Вв, Гг, Дд, Жж, Зз3. То есть алфавит обучения как множество классов является носителем мультимножества всех допустимых графем. Степень элемента этого мультимножества есть количество графем, неразличимых с точки зрения алфавита обучения.

Каждое из подмножеств обучающей последовательности R(G), соответствующих различным графемам G, кластеризуется отдельно. Образуется набор кластеров, каждый из которых формируется суммированием элементов однотипных растров. Центром кластера является среднее арифметическое растров, вошедших в кластер. Первый элемент подмножества g1R(G) составляет начальный кластер Cl1. Очередная свертка gi сравнивается со всеми образованными кластерами, то есть вычисляется наименьшее из расстояний (gi , E(Clk)) от свертки до центра каждого кластера Clk. Если расстояние от свертки gi до множества центров всех кластеров Cl1, Cl2,… ,Clm больше заданного заранее порога, то образуется новый кластер Clm+1. Если же расстояние до какого-либо кластера меньше заданного порога, то свертка gi суммируется с ближайшим кластером.

Тем самым к концу обучения мы вычислить центр E(Clk) для каждого кластера, и отнормировав его на единичную длину, создать массив эталонов B = {E1, E2, … , Em}. Некоторые из эталонов соответствуют одной и той же графеме, то есть эталоны B представляют собой мультимножество, элементами которого являются идеальные свертки графем с кратностями, равными количеству получившихся для одной графемы кластеров.

Распознавание сжатого образа X, одной размерности с эталонами и нормированного на единичную длину состоит в следующем. Определим подмножество эталонов, расстояние до которых от X меньше заранее заданного . Соответствующие этим ближайшим эталонам пары, состоящие из кода графемы gi и расстояния i до них, образуют мультимножество

A() = {(g1, 1), … , (gk, k)}

альтернатив распознавания.
2. Событийный алгоритм

Рассмотрим представление образа, содержащего одну компоненту связности, эквивалентное растровому представлению, но отличное него. Бинарный растр, как набор строк, состоящих из черных и белых точек, представим в виде набора интервалов, каждый из которых содержит одну или несколько смежных черных точек. Процедура преобразования бинарного растра в набор интервалов состоит в его просмотре строк сверху вниз, каждая строка пробегается слева направо для обнаружения черных интервалов. Два интервала в смежных строках, имеющие пересекающиеся горизонтальные проекции, называются сцепленными. Набор сцепленных интервалов называется линией. Таким образом, линия в каждом горизонтальном сечении содержит ровно один интервал. В процессе просмотра возможны следующие ситуации

  • черный интервал не имеет соседей в предыдущей строке растра (соседними считаются точки, граничащие по одному из восьми направлений). Соответствует началу линии со свободным началом (интервалы 1, 2 на рис. 1).

  • черный интервал не граничит ни с одним интервалом из следующей строки. Линия закончилась, и этот конец - свободный (интервалы 3, 4 на рис. 1).

Р
ис. 1 Пример свободных начал (1, 2) , свободных концов (3, 4) и линий с несвободными началами и концами (5)


  • черный интервал граничит с черным интервалом в предыдущей строке, и этот интервал первый из всех интервалов, граничащих с интервалом предыдущей строки. Интервал является продолжением линии (интервалы, продолжающие линии, заданные свободными концами 1, 2 на рис. 1).

  • существует несколько интервалов, сцепленных с одним интервалом из предыдущей строки. Первый (самый левый) из них относится к продолжению линии, а остальные являются началами новых линий с несвободными началами (пересечение линий 5 на рис. 1).

  • у
    двух или более линий имеется общий соседний интервал в следующей строке. Первая (самая левая) линия продолжается, а остальные имеют несвободные концы (пересечение линий 5 на рис. 1).


Рис. 2 Пример разбиения образа символа «а» на линии.
Данная процедура выделения интервалов и линий позволяет получить линейное представление односвязного образа символа (пример разбиения растра символа на линии см. на рис. 2), состоящее из набора линий:

L1 = {B1, E1, M1, I11, … , I1N1}

L2 = {B2, E2, M2, I21, … , I2N2}

………….

Lk = {Bk, Ek, Mk, Ik1, … , IkNk}
где k - число линий в растре

Bi, Ei - признак наличия свободного начала и свободного конца в i-ой линии

Mi - номер строки в растре первого интервала i-ой линии

Iij - j-ый интервал i-ой линии, состоящий из координат начала и конца.

Огрубим линейное представление следующим образом. Для каждой линии Li определим ее начало Si и конец Fi как координаты середин первого и последнего из интервалов линии, после чего отмасштабируем координаты начала и конца на сетке M × N. Отмасштабированную таким образом линию назовем прямым событием.

Последовательность

S = { NL, NB, NE, M1, F1, …, MN, FN },

содержащую NL линий и информацию о структуре символа, то есть количество свободных начал и концов NB и NE назовем линейным представлением символа. Линейное представление сохраняет описание структуры символа, и, в то же время, разнообразие линий ограничивается размером использованной сетки. Повернув образ на 90 по часовой стрелке и проделав процедуры выделения линий и определения событий с повернутым растром, получим набор событий

Sr = { NLr, NBr, NEr, M1, F1, … , MNr, FNr },

называемый поворотным линейным представлением символа. Из построенных представлений удалим линии с размерами менее заданной величины. Эта процедура еще более огрубляет представление, пренебрегая малыми выбросами в образе. Для игнорирования аналогичных вариаций образа из-за малых отверстий необходима процедура удаления отверстий.

Процедура обучения начинается с преобразования каждого растра ri с графемой gi из обучающей последовательности в линейное представление S(ri). Полученный вектор S(ri) сравнивается со всеми существующими эталонными линейными представлениями BE с тем же количеством компонент вектора. Если вектор S(ri) отсутствует в BE, то он добавляется как новый эталон c кодом графемы gi. Если же вектор S(ri) совпал с одним из элементов BE, то графема gi суммируется с мультимножеством графем одного линейного представления

{ (g1, N1), … ,(gk, Nk) },

где Ni – количество графем gi в обучающей последовательности, обладающих линейным представлением S(ri).

Распознавание растра ri, преобразованного в линейное представление S(ri), состоит в точном поиске вектора S(ri) в массиве эталонов. Результатом распознавания является мультимножество графем

A = { (g1, N1), … , (gk, Nk) }

где Ni – количество графем gi в обучающей последовательности, обладающих линейным представлением S(ri).

Наличие прямых и поворотных массивов эталонов позволяет получить два мультимножества A и Ar результатов. В качестве окончательного результата могут быть взяты как сумма A+Ar, так и разность A-Ar.
Обсуждение

Приведенные примеры свидетельствуют о том, что понятия теории мультимножеств органично используются в практике алгоритмов распознавания символов. Может возникнуть вопрос: «а что же дает для разработки алгоритмов распознавания символов теория мультимножеств?»

Во-первых, без теории мультимножеств приходится определять собственные понятия, аналогичные мультимножественным. Например, в описанном событийном алгоритме невозможно обойтись без операций суммы и разности. В свою очередь, использование собственной системы понятий затрудняет взаимодействие разработчиков алгоритмов, а возможная неполнота системы понятий усложняет и саму разработку.

Во-вторых, представление набора классов мультимножеством снимает вопросы, связанные с неоднозначными описаниями символов. В распознавании образов символов кириллицы и латиницы мультимножеством является набор классов , в которых символы имеют несколько модификаций (признаки курсива, полужирность, тип шрифта), причем некоторые из них могут не иметь содержательного названия (шрифтовые модификации). При этом определяются несколько классов отказа k, соответствующих невозможности классификации по признаку модификации.

Наконец, методическая ориентация на мультимножества полезна и в других алгоритмах распознавания, в которых неоднозначность является существенной. К таким алгоритмам относятся задачи распознавания символов с неизвестными границами, распознавание текстовых строк с неизвестным алфавитом, распознавание выражений по описанию, сегментация образа документа.
Благодарности

Автор выражает благодарность большому коллективу разработчиков описанных алгоритмов: Арлазарову В.Л., Карзанову А.В., Талалаю А.Б., Комиссарчику Э.А., Тхиру А., Астахову А.Д., Подрабиновичу А.А, Подрабиновичу А.Я.
Литература

1. Lam L., Suen C.Y. An Evaluation of Parallel Thinning Algorithms for Character Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, V. 17, № 9, 1995. P. 914-919

2. Wakahaga T., Odaka K. Adaptive Normalization of Handwritten Characters Using Global/Local Affine Transformation // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998. Vol. 20. № 12. P. 28-33

3. Мисюрёв А.В. Использование искусственных нейронных сетей
для распознавания рукопечатных символов // Сб. тр. "Интеллектуальные технологии ввода и обработки информации", 1998. C.122-127

4. Portegys T.E. A Search Technique for pattern Recognition Using Relative Distances. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995. Vol. 17. № 9. P. 910-912

5. Арлазаров В.Л., Логинов А.С., Славин О.А. Характеристики программ оптического распознавания текста. // Программирование, 2002. № 3. С. 45-63.


1 117312, Москва, В-312, проспект 60-летия Октября, 9, ИСА РАН, OSlavin@cs.isa.ru


Добавить документ в свой блог или на сайт

Похожие:

Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconЗадача распознавания образов символов состоит в определении (построении)...
Г-н Журден. Честное слово, я и не подозревал, что вот уже более сорока лет говорю прозой. Большое вам спасибо, что сказали
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconДисциплины «задачи математическго программмирования» Кафедра математики
В общем виде математическая постановка задачи математического программирования состоит в определении наибольшего или наименьшего...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconДисциплины «задачи математическго программмирования» Кафедра математики
В общем виде математическая постановка задачи математического программирования состоит в определении наибольшего или наименьшего...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ icon«Системы распознавания текста»
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconУрок 6 10 класс Тема: «Системы распознавания текста»
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconУрок внеклассного чтения Тема: Красота вокруг нас
На основе анализа образов символов уметь раскрывать авторскую позицию, идею произведения
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconЗадача состоит в формулировании необходимых и достаточных условий...
Метод множителей Лагранжа для нахождения точек условного экстремума
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconПрограмма по формированию навыков безопасного поведения на дорогах...
«От того, как прошло детство, кто вёл ребенка за руку в детские годы, что вошло в его разум и сердце из окружающего мира – от этого...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconЗадача № в кодировке кои-8 каждый символ кодируется 8 битами. Сколько...
Задача № Считая, что каждый символ кодируется 2 байтами, оцените информационный объём следующего предложения в кодировке Unicode
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconМетодическое пособие по спецкурсу «Безопасность бизнеса» Москва, 2010 г
Данное методическое пособие по безопасности бизнеса состоит из программы курса и методических рекомендаций. Оно предназначено для...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconРабочая программа по дисциплине опд. Р. 01 Физико-химические методы...
Дисциплина «Физико-химические методы распознавания фальсификации товаров» предполагает научить студентов современным методам распознавания...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconЗадача обучения математики
До недавнего времени считалось, что главная задача школы состоит в том, чтобы дать каждому школьнику общей среднее образование в...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconКонспект урока по вышивке Тема урока
Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconУрок по учебному плану. Тип урока: комбинированный Вид занятия
Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconТесты промежуточного контроля. Функции центрального банка
Банки, уставный капитал которых полностью принадлежит иностранным участникам – это
Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ iconВнеклассное мероприятие Посвященное Международному женскому дню Игра «Поле Чудес»
Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск