Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ

Скачать 93.83 Kb.

Название	Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ
Дата публикации	07.03.2016
Размер	93.83 Kb.
Тип	Задача

ИСПОЛЬЗОВАНИЕ МУЛЬТИМНОЖЕСТВ В РАСПОЗНАВАНИИ СИМВОЛОВ
О.А. Славин^¹
Г-н Журден. Честное слово, я и не подозревал, что вот уже более сорока лет говорю прозой. Большое вам спасибо, что сказали.

Жан-Батист Мольер.

« Мещанин во дворянстве»
В статье приводятся примеры использования понятия «мультимножества» в задачах распознавания образов символов. Рассмотрены мультимножества оценок, представлений и классификаций.

Введение

Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам

принадлежит образ x. Функция классификации формирует ответ в виде набора альтернатив A=(a₁, …, a_m), m<M. Каждая альтернатива a_k представляет собой пару <c_k, p_k>, где c_k - код класса, p_k - оценка принадлежности к k-му классу. Альтернативы в векторе A отсортированы по убыванию оценок принадлежности. Необходимо отметить, что образ x может не соответствовать ни одному из M классов

, поэтому к числу классов добавляется ещё один класс , называемый отказом.

Мы считаем, что серые (полутоновые) или черно-белые (бинарные) образы символов представлены растрами, то есть матрицами R(M, N) размера M × N, элементы R_ij которых являются действительными или целыми числами. Функция классификации может оценивать близость к множеству классов как по растрам непосредственно, так и с помощью представления образов символов. В качестве представлений могут выступать, например, наборы признаков, вычисленных для растра, или нормализованные растры.

В статье будут рассмотрены некоторые случаи применения понятий теории мультимножеств в задачах распознавания образов символов, позволяющие органично описывать структуры и алгоритмы распознавания образов символов.

1. Алгоритм 3х5

Распространенной процедурой, предшествующей распознаванию образа символа, является нормализация образа по различным параметрам, например, углу наклона, толщине линий [1] или форме образа [2]. Наиболее часто производят нормализацию по размерам или масштабирование. При этом решается ряд задач, таких как унификация эталонов распознавания и уменьшение размеров объекта распознавания. Последнее обстоятельство может снижать вариативность образов символов, за счет чего повышается качество распознавания на одних и тех же эталонных наборах. Часто перед распознаванием образы кириллицы или латиницы масштабируют до размеров 16 на 16 [3], используются и другие сетки, например, 20×20 и 28×28 [4]. Существуют работоспособные алгоритмы, базирующихся на масштабных сетках 3х5 и 5х3.

Дадим определение сжатия бинарного изображения произвольного размера к серому (полутоновому) образу меньшего размера. Пусть B(m, n) – матрица исходного бинарного растра с размерами m на n. Сначала выполним преобразование матрицы B в матрицу B¹(mM, nN)по следующему правилу

B¹_pq=B_lk, где m( l -1 ) < p  ml и n( k -1 ) < q  nk.

Затем определим матрицу H(M, N)со следующими элементами

Полученный сжатый растр мы будем использовать в качестве вектора, получаемого из матрицы H(M, N) следующим образом

h=(H_1,1; H_1,2; … H_1,_M; H_2,1; H_2,2; … H_2,_M; ••• H_N_,1; H_N_,2; … H_N_,_M ).

Нормализованный на единичную длину вектор h будем называть сжатым образом или сверткой.

В процессе обучения каждый образ из обучающей последовательности будем сжимать до определенного размера, а сжатые образы, рассматриваемые как элементы одного эвклидова пространства, подвергнем алгоритму кластеризации.

Будем использовать понятие алфавита обучения [5], то есть перечня классов, на которые разбита обучающая последовательность. Разнообразные с точки зрения начертания типы символов могут содержать несколько графем, то есть типов начертания, соответствующих одному символу. Например, одному символу русского языка «Д» соответствует несколько графем, таких как ДДдg. Алфавит обучения также учитывает неспособность алгоритма различать графемы, соответствующие различным символам. Например, описанная нормализация образов символов по размеру делает невозможным различение прописных и строчных символов с одинаковым начертанием, таких как Вв, Гг, Дд, Жж, Зз3. То есть алфавит обучения как множество классов является носителем мультимножества всех допустимых графем. Степень элемента этого мультимножества есть количество графем, неразличимых с точки зрения алфавита обучения.

Каждое из подмножеств обучающей последовательности R(G), соответствующих различным графемам G, кластеризуется отдельно. Образуется набор кластеров, каждый из которых формируется суммированием элементов однотипных растров. Центром кластера является среднее арифметическое растров, вошедших в кластер. Первый элемент подмножества g₁R(G) составляет начальный кластер Cl₁. Очередная свертка g_iсравнивается со всеми образованными кластерами, то есть вычисляется наименьшее из расстояний (g_i, E(Cl_k)) от свертки до центра каждого кластера Cl_k. Если расстояние от свертки g_i до множества центров всех кластеров Cl₁, Cl₂,… ,Cl_m больше заданного заранее порога, то образуется новый кластер Cl_m₊₁. Если же расстояние до какого-либо кластера меньше заданного порога, то свертка g_iсуммируется с ближайшим кластером.

Тем самым к концу обучения мы вычислить центр E(Cl_k) для каждого кластера, и отнормировав его на единичную длину, создать массив эталонов B = {E₁, E₂, … , Em}. Некоторые из эталонов соответствуют одной и той же графеме, то есть эталоны B представляют собой мультимножество, элементами которого являются идеальные свертки графем с кратностями, равными количеству получившихся для одной графемы кластеров.

Распознавание сжатого образа X, одной размерности с эталонами и нормированного на единичную длину состоит в следующем. Определим подмножество эталонов, расстояние до которых от X меньше заранее заданного . Соответствующие этим ближайшим эталонам пары, состоящие из кода графемы g_i и расстояния _i до них, образуют мультимножество

A() = {(g₁, ₁), … , (g_k, _k)}

альтернатив распознавания.
2. Событийный алгоритм

Рассмотрим представление образа, содержащего одну компоненту связности, эквивалентное растровому представлению, но отличное него. Бинарный растр, как набор строк, состоящих из черных и белых точек, представим в виде набора интервалов, каждый из которых содержит одну или несколько смежных черных точек. Процедура преобразования бинарного растра в набор интервалов состоит в его просмотре строк сверху вниз, каждая строка пробегается слева направо для обнаружения черных интервалов. Два интервала в смежных строках, имеющие пересекающиеся горизонтальные проекции, называются сцепленными. Набор сцепленных интервалов называется линией. Таким образом, линия в каждом горизонтальном сечении содержит ровно один интервал. В процессе просмотра возможны следующие ситуации

черный интервал не имеет соседей в предыдущей строке растра (соседними считаются точки, граничащие по одному из восьми направлений). Соответствует началу линии со свободным началом (интервалы 1, 2 на рис. 1).
черный интервал не граничит ни с одним интервалом из следующей строки. Линия закончилась, и этот конец - свободный (интервалы 3, 4 на рис. 1).

ис. 1 Пример свободных начал (1, 2) , свободных концов (3, 4) и линий с несвободными началами и концами (5)

черный интервал граничит с черным интервалом в предыдущей строке, и этот интервал первый из всех интервалов, граничащих с интервалом предыдущей строки. Интервал является продолжением линии (интервалы, продолжающие линии, заданные свободными концами 1, 2 на рис. 1).
существует несколько интервалов, сцепленных с одним интервалом из предыдущей строки. Первый (самый левый) из них относится к продолжению линии, а остальные являются началами новых линий с несвободными началами (пересечение линий 5 на рис. 1).
у
двух или более линий имеется общий соседний интервал в следующей строке. Первая (самая левая) линия продолжается, а остальные имеют несвободные концы (пересечение линий 5 на рис. 1).

Рис. 2 Пример разбиения образа символа «а» на линии.
Данная процедура выделения интервалов и линий позволяет получить линейное представление односвязного образа символа (пример разбиения растра символа на линии см. на рис. 2), состоящее из набора линий:

L₁ = {B₁, E₁, M₁, I¹₁, … , I¹_N1}

L₂ = {B₂, E₂, M₂, I²_1,… , I²_N2}

………….

L_k = {B_k, E_k, M_k, I^k₁, … , I^k_Nk}
где k - число линий в растре

B_i, E_i - признак наличия свободного начала и свободного конца в i-ой линии

M_i - номер строки в растре первого интервала i-ой линии

Iⁱ_j - j-ый интервал i-ой линии, состоящий из координат начала и конца.

Огрубим линейное представление следующим образом. Для каждой линии L_i определим ее начало S_i и конец F_i как координаты середин первого и последнего из интервалов линии, после чего отмасштабируем координаты начала и конца на сетке M × N. Отмасштабированную таким образом линию назовем прямым событием.

Последовательность

S = { N_L, N_B, N_E, M₁, F₁, …, M_N, F_N},

содержащую N_L линий и информацию о структуре символа, то есть количество свободных начал и концов N_B и N_E назовем линейным представлением символа. Линейное представление сохраняет описание структуры символа, и, в то же время, разнообразие линий ограничивается размером использованной сетки. Повернув образ на 90 по часовой стрелке и проделав процедуры выделения линий и определения событий с повернутым растром, получим набор событий

S_r = { N_Lr, N_Br,N_Er, M₁, F₁, … , M_Nr, F_Nr},

называемый поворотным линейным представлением символа. Из построенных представлений удалим линии с размерами менее заданной величины. Эта процедура еще более огрубляет представление, пренебрегая малыми выбросами в образе. Для игнорирования аналогичных вариаций образа из-за малых отверстий необходима процедура удаления отверстий.

Процедура обучения начинается с преобразования каждого растра r_i с графемой g_i из обучающей последовательности в линейное представление S(r_i). Полученный вектор S(r_i) сравнивается со всеми существующими эталонными линейными представлениями B_E с тем же количеством компонент вектора. Если вектор S(r_i) отсутствует в B_E, то он добавляется как новый эталон c кодом графемы g_i. Если же вектор S(r_i) совпал с одним из элементов B_E, то графема g_i суммируется с мультимножеством графем одного линейного представления

{ (g₁, N₁), … ,(g_k, N_k) },

где N_i– количество графем g_iв обучающей последовательности, обладающих линейным представлением S(r_i).

Распознавание растра r_i, преобразованного в линейное представление S(r_i), состоит в точном поиске вектора S(r_i) в массиве эталонов. Результатом распознавания является мультимножество графем

A = { (g₁, N₁), … , (g_k, N_k) }

где N_i– количество графем g_iв обучающей последовательности, обладающих линейным представлением S(r_i).

Наличие прямых и поворотных массивов эталонов позволяет получить два мультимножества A и A_r результатов. В качестве окончательного результата могут быть взяты как сумма A+A_r, так и разность A-A_r.
Обсуждение

Приведенные примеры свидетельствуют о том, что понятия теории мультимножеств органично используются в практике алгоритмов распознавания символов. Может возникнуть вопрос: «а что же дает для разработки алгоритмов распознавания символов теория мультимножеств?»

Во-первых, без теории мультимножеств приходится определять собственные понятия, аналогичные мультимножественным. Например, в описанном событийном алгоритме невозможно обойтись без операций суммы и разности. В свою очередь, использование собственной системы понятий затрудняет взаимодействие разработчиков алгоритмов, а возможная неполнота системы понятий усложняет и саму разработку.

Во-вторых, представление набора классов мультимножеством снимает вопросы, связанные с неоднозначными описаниями символов. В распознавании образов символов кириллицы и латиницы мультимножеством является набор классов

, в которых символы имеют несколько модификаций (признаки курсива, полужирность, тип шрифта), причем некоторые из них могут не иметь содержательного названия (шрифтовые модификации). При этом определяются несколько классов отказа k, соответствующих невозможности классификации по признаку модификации.

Наконец, методическая ориентация на мультимножества полезна и в других алгоритмах распознавания, в которых неоднозначность является существенной. К таким алгоритмам относятся задачи распознавания символов с неизвестными границами, распознавание текстовых строк с неизвестным алфавитом, распознавание выражений по описанию, сегментация образа документа.
Благодарности

Автор выражает благодарность большому коллективу разработчиков описанных алгоритмов: Арлазарову В.Л., Карзанову А.В., Талалаю А.Б., Комиссарчику Э.А., Тхиру А., Астахову А.Д., Подрабиновичу А.А, Подрабиновичу А.Я.
Литература

1. Lam L., Suen C.Y. An Evaluation of Parallel Thinning Algorithms for Character Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, V. 17, № 9, 1995. P. 914-919

2. Wakahaga T., Odaka K. Adaptive Normalization of Handwritten Characters Using Global/Local Affine Transformation // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998. Vol. 20. № 12. P. 28-33

3. Мисюрёв А.В. Использование искусственных нейронных сетей
для распознавания рукопечатных символов // Сб. тр. "Интеллектуальные технологии ввода и обработки информации", 1998. C.122-127

4. Portegys T.E. A Search Technique for pattern Recognition Using Relative Distances. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995. Vol. 17. № 9. P. 910-912

5. Арлазаров В.Л., Логинов А.С., Славин О.А. Характеристики программ оптического распознавания текста. // Программирование, 2002. № 3. С. 45-63.

1 117312, Москва, В-312, проспект 60-летия Октября, 9, ИСА РАН, OSlavin@cs.isa.ru

Добавить документ в свой блог или на сайт

	Задача распознавания образов символов состоит в определении (построении)... Г-н Журден. Честное слово, я и не подозревал, что вот уже более сорока лет говорю прозой. Большое вам спасибо, что сказали		Дисциплины «задачи математическго программмирования» Кафедра математики В общем виде математическая постановка задачи математического программирования состоит в определении наибольшего или наименьшего...
	Дисциплины «задачи математическго программмирования» Кафедра математики В общем виде математическая постановка задачи математического программирования состоит в определении наибольшего или наименьшего...		«Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
	Урок 6 10 класс Тема: «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...		Урок внеклассного чтения Тема: Красота вокруг нас На основе анализа образов символов уметь раскрывать авторскую позицию, идею произведения
	Задача состоит в формулировании необходимых и достаточных условий... Метод множителей Лагранжа для нахождения точек условного экстремума		Программа по формированию навыков безопасного поведения на дорогах... «От того, как прошло детство, кто вёл ребенка за руку в детские годы, что вошло в его разум и сердце из окружающего мира – от этого...
	Задача № в кодировке кои-8 каждый символ кодируется 8 битами. Сколько... Задача № Считая, что каждый символ кодируется 2 байтами, оцените информационный объём следующего предложения в кодировке Unicode		Методическое пособие по спецкурсу «Безопасность бизнеса» Москва, 2010 г Данное методическое пособие по безопасности бизнеса состоит из программы курса и методических рекомендаций. Оно предназначено для...
	Рабочая программа по дисциплине опд. Р. 01 Физико-химические методы... Дисциплина «Физико-химические методы распознавания фальсификации товаров» предполагает научить студентов современным методам распознавания...		Задача обучения математики До недавнего времени считалось, что главная задача школы состоит в том, чтобы дать каждому школьнику общей среднее образование в...
	Конспект урока по вышивке Тема урока Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...		Урок по учебному плану. Тип урока: комбинированный Вид занятия Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...
	Тесты промежуточного контроля. Функции центрального банка Банки, уставный капитал которых полностью принадлежит иностранным участникам – это		Внеклассное мероприятие Посвященное Международному женскому дню Игра «Поле Чудес» Создать условия для формирования общего представления о классификации головных уборов и формирования знаний, умений и навыков снятия...

Задача распознавания образов символов состоит в определении (построении) функции классификации, решающей, к каким классам принадлежит образ

Похожие: