Реферат на тему «Проблема распознавания речи. Обзор алгоритмов и программ» по дисциплине «Информатика»

Скачать 145.06 Kb.

Название	Реферат на тему «Проблема распознавания речи. Обзор алгоритмов и программ» по дисциплине «Информатика»
Дата публикации	24.11.2017
Размер	145.06 Kb.
Тип	Реферат

100-bal.ru > Информатика > Реферат

Муниципальное общеобразовательное учреждение

гимназия № 93

Октябрьского района городского округа город Уфа

Республики Башкортостан

РЕФЕРАТ

на тему «Проблема распознавания речи.

Обзор алгоритмов и программ»

по дисциплине «Информатика»

Вариант № 31

Ученик 6 В класса ____________ И.И. Иванов

(подпись, дата)

Учитель информатики ____________ М.Н. Каданцев

(подпись, дата)

Уфа – 2014

Оглавление

1. Введение…………………………………………………………………………………….	3
2. Основные подходы к решению задачи распознавания речи…………….….…………...	3
3. Методы распознавания речи ……………………………………………………………...	5
3.1. Распознавание отдельных команд………………………………………………………	5
3.2. Распознавание по грамматике………………………………………………...…………	5
3.3. Поиск ключевых слов в потоке слитной речи………………………………………….	5
3.4. Распознавание слитной речи на большом словаре (LVCSR – large vocabulary continuous speech recognition)………………………………………………………………...	5
3.5. Обеспечение высокого качества распознавания……………………………………….	7
4. Современные системы распознавания речи……………………………………………...	8
4.1. Технологии для аппаратных реализаций……………………………………………….	8
4.2. Наборы библиотек для разработки приложений……………………………………….	8
4.3. Независимые пользовательские приложения…………………………………………..	9
4.4. Специализированные приложения……………………………………………………...	9
4.5. Устройства, выполняющие распознавание на аппаратном уровне…………………...	9
4.6. Теоретические исследования и разработки…………………………………………….	10
5. Заключение…………………………………………………………………………………	10
6. Список литературы………………………………………………………………………...	11

Введение

С момента появления первых ЭВМ одним из наиболее важных вопросов развития компьютерной техники был процесс взаимодействия человека с машиной. Долгое время это было доступно только узким специалистам – технологи «общались» с машиной через посредника-программиста. Такая ситуация просуществовала вплоть до появления диалогового интерфейса, когда пользователь смог лично вводить с клавиатуры адресованную машине команду и получать осмысленный ответ. Появление графического интерфейса, при котором отпала необходимость в знании человеком каких-либо команд, привела к повсеместному распространению персональных компьютеров.

Однако человек всегда стремился к более универсальному и естественному способу взаимодействия с ЭВМ. Еще в эпоху перфокарт в научно-фантастических романах человек разговаривал с компьютером, как с равным себе. Тогда же были предприняты первые шаги по реализации речевого интерфейса.

Тем не менее, если сравнить показатели современных систем распознавания с показателями систем времен начала зарождения этой области науки, то можно сказать, что за прошедшие десятки лет исследователи недалеко продвинулись. Это заставляет некоторых специалистов сомневаться относительно возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Большинство экспертов сходится во мнении, что для развития распознавания речи потребуется какое-то время.

В настоящее время научное сообщество вкладывает гигантское количество денег в развитие know-how и научно-исследовательские разработки для решения проблем автоматического распознавания и понимания речи. Это стимулируется практическими требованиями, связанными с созданием системы военного и коммерческого назначения. Не касаясь первого из них, можно указать, что только в европейском сообществе объем продаж систем гражданского назначения составляет несколько миллиардов долларов. При этом следует обратить внимание на то, что в практическом использовании отсутствуют системы, считающиеся по непонятным причинам вершиной развития систем автоматического распознавания речи. Это системы, которые можно назвать демонстрационными и которые 50 лет назад назывались «фонетическими печатающими машинками». Их целью является перевод речи в соответствующий письменный текст.

2. Основные подходы к решению задачи распознавания речи

Первый подход, который используется для улучшения показателей распознавания речи, основывается на выделении векторов свойств из сигнала с учетом особенностей восприятия звука человеческим ухом. Он включает в себя анализ несущих частот и выравнивание сигнала по громкости. Наиболее распространенными технологиями, использующими такой подход, являются метод кепстральных коэффициентов тоновой частоты (Mel Frequency Cepstral Coefficients, MFCC, Davis & Mermelstein, 1980) и метод коэффициентов линейного предсказания (Perceptual Linear Prediction, PLP, Hermansky, 1990). Одновременное и опережающее сопоставление с шаблоном (маскирование) (Paliwal & Lilly, 1997), характерное для человеческого восприятия, может быть смоделировано и использовано для выделения свойств, обеспечивающих большую устойчивость от шумов. С этой целью был создан метод варьирования размерностей кадров (Variable Frame Rate analysis, VFR, Zhu & Alwan, 2000). Учитывая специфику работы нервных клеток, отвечающих за слуховые рецепторы, был предложен метод диапазонной автокорреляции (Subband-Autocorrelation, SBCOR, Kajita & Itakura, 1994).

Другой подход основан на анализе звуковых сигналов. Различие поступающих в систему зашумленных сигналов от шаблонов, полученных в ходе обучения «чистыми» сигналами, является основной причиной неустойчивости работы систем распознавания. Целью подхода является уменьшение этого различия. Предполагается, что шум в звуковых сигналах аддитивный и стационарный. Оценки среднего значения усредненного шума вычитаются из кепстра (Cepstral Mean Subtraction, CMS, Furui, 1981) или спектра (Spectral Subtraction, SS, Virag, 1999), вычисленного по зашумленным данным. Некоторые модификации таких методов включают в себя нелинейное спектральное вычитание (Non-linear Spectral Subtraction, NSS, Lockwood & Boudy, 1992), которые используют спектральные огибающие. Такие техники требуют хорошей оценки шума, которую на практике бывает сложно получить, особенно в случае нестационарного фонового шума.

Еще одним способом борьбы с разницей между полученными свойствами из зашумленных и чистых сигналов является использование высокочастотного фильтра. Предполагается, что шум в сигнале не стационарный, а медленно изменяющийся во времени. Метод RASTA (Relative Spectral Analysis, Hermansky & Morgan, 1994) представлен таким образом, что относительные спектральные изменения фиксируются. И те медленные изменения, которые были вызваны шумом, удаляются. В этом случае отпадает необходимость в явном оценивании шума.

Третий подход основан на использовании многомерных пространств (Ephraim & Trees, 1994). Основной идеей этого подхода является нахождение линейного отображения, которое минимизирует функцию стоимости. Часто в качестве такого отображения берется умножение вектора свойств на матрицу преобразования. Примерами данного подхода могут служить основной компонентный анализ (Principal Component Analysis, PCA) и независимый компонентный анализ (Independent Component Analysis, ICA, Koscor, 2000), а также проектирование на многомерные подпространства (Gales, 2002).
3. Методы распознавания речи

Выделяют несколько основных способов распознавания речи:

Распознавание отдельных команд

Суть технологии: раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря.

Техническая реализация: точность распознавания ограничена объемом заданного словаря. При соблюдении этого условия данная технология позволяет достичь самой высокой достоверности распознавания.

Применение: в настоящее время наиболее ярким примером использования технологии распознавания отдельных команд в коммерческих приложениях является голосовая навигация по сайтам.

Распознавание по грамматике

Суть технологии: распознавание фраз, соответствующих определенным заданным правилам (грамматике).

Техническая реализация: для задания грамматик используются стандартные XML-языки (VoiceXML), обмен данными между системой распознавания и приложением, как правило, осуществляется по протоколу MRCP.

Применение: технология распознавания по грамматике широко применяется в системах голосового самообслуживания (СГС).

Поиск ключевых слов в потоке слитной речи

Суть технологии: распознавание отдельных участков речи.

Техническая реализация: в этом случае речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания.

Применение: данная технология распознавания часто применяется в поисковых системах, в системах мониторинга речи.

Распознавание слитной речи на большом словаре (LVCSR — large vocabulary continuous speech recognition).

Суть технологии: эта технология наиболее близка к мечте человека о взаимодействии человека и машины – все, что сказано, дословно преобразуется в текст. Поэтому иногда эта технология так и называется STT – speech-to-text.

Техническая реализация: задача полноценного распознавания слитной речи не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике.

Так как последний метод наиболее сложный, то рассмотрим его поподробнее.

Рис. 1. Процесс распознавания слитной речи на большом словаре

Этапы распознавания

1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.

2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.

3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи.

4. Далее параметры речи поступают в основной блок системы распознавания – декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

а) Акустические модели. При сравнительно небольшом рабочем словаре высокой достоверности распознавания можно достигнуть, лишь сопоставляя входной поток речи с шаблонами отдельных звуков – акустическими моделями. Современная тенденция технологии описания звуковых образов подразумевает комбинирование различных подходов. Так, в Центре речевых технологий для описания акустических моделей используют комбинацию классической теории цифровой обработки сигналов и технологии искусственных нейронных сетей. Такие модели наиболее устойчивы к междикторской вариативности, а также к помехам и искажениям, вносимым окружением или каналом передачи.

б) Языковые модели. С ростом словаря увеличивается количество слов, схожих или даже одинаковых по звучанию. При слитном произнесении акустическая схожесть отдельных фрагментов речи проявляется настолько, что часто и человек, прослушивая запись вне контекста, не может в точности распознать то, что было произнесено. Поэтому значительную роль в распознавании речи играют так называемые языковые модели. Они позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта – слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Задача осложняется тем, что в русском языке допустим произвольный порядок слов («мама мыла раму» - «раму мыла мама»). Поэтому в Центре речевых технологий используются гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.

в) При распознавании на большом словаре также используется модуль определения темы разговора. Это позволяет в зависимости от тематики речи автоматически менять словарь и языковые модели. Модуль определения темы разговора разработан с использованием теории data mining. По сути этот компонент – зачатки системы искусственного интеллекта, которая в будущем все чаще будет использоваться совместно с модулем распознавания, делая процесс преобразования речи в текст более осмысленным.

Обеспечение высокого качества распознавания

Качество распознавания зависит от двух факторов – структуры каркаса системы распознавания речи (набора программных модулей и алгоритмов, использующихся при распознавании) и качества моделей – акустических, языковых, тематических.

Все модели обучаются с использованием большого объема материала. Так, для акустических моделей используются сотни часов записей речи тысяч дикторов. Для повышения устойчивости распознавания к помехам и искажениям, при обучении используются записи в различных каналах и различных условиях. Для обучения языковых моделей и моделей тематик используются текстовые корпуса объемом от сотен миллионов словоформ до нескольких миллиардов. Подготовка такого объема обучающего материала – это сложная и кропотливая работа. Центр речевых технологий в течение нескольких десятилетий накапливал обучающий материал и на данный момент обладает уникальным по своим объемам, разнообразию и качеству набором записей и текстов, способных обеспечить высочайшее качество распознавания речи.

Современные системы распознавания речи

Все многообразие современных систем распознавания речи можно условно разделить на несколько групп. Рассмотрим каждую из них подробнее.

Технологии для аппаратных реализаций

В основе любой речевой технологии лежит так называемый «engine» или ядро программы – набор данных и правил, по которым осуществляется обработка данных. В зависимости от назначения этого ядра различают TTS (Text-to-Speech) и ASR (Automatic Speech Recognition) engine. TTS engine предоставляет возможность синтеза речи по тексту, а ASR engine – для распознавания речи.

Существует несколько крупных производителей, занимающихся созданием ASR ядер. Среди них такие компании, как SPIRIT, Advanced Recognition Technologies, IBM.

Корпорация IBM уже более 30 лет занимается вопросами автоматического распознавания речи и достигла в этой области больших успехов. Так компания ProVox Technologies на основе программного ядра ViaVoice® от IBM создала систему VoxReports для диктовки отчетов врачей-радиологов. По результатам тестирований данная система с точностью 95-98% распознает слитную речь нормального темпа (до 180 слов в минуту) в независимости от диктора. Однако словарь системы ограничен набором специфических медицинских терминов.

Наборы библиотек для разработки приложений

С развитием речевых технологий и все большим внедрением мобильных устройств, возникла идея применения речевого управления при построении сетевых приложений. Для этого было необходимо разработать унифицированный стандарт для интеграции речевых технологий.

Один из открытых стандартов на основе XML-языка – VoiceXML (Voice eXtensible Markup Language), первая версия опубликована в мае 2000 г. международным консорциумом World Wide Web (W3 Consortium) – предназначен для разработки интерактивных голосовых приложений (Interactive Voice Response, IVR) управления медиаресурсами. Цель создания стандарта - привнесение всех преимуществ web-программирования в разработку IVR-приложений.

Однако интерес к многомодальным приложениям, сочетающим распознавание речи с другими формами ввода информации (при помощи клавиатуры, пера или набора цифровых кнопок) побудил ряд компаний, в том числе Microsoft, поддержать проект SALT Forum (Speech Application Language Tags - теги языка речевых приложений). И теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря. До сих пор компании не могут прийти к единому мнению о выборе главного стандарта, и сейчас оба направления развиваются в равной степени.

Некоторые компании занимаются разработкой пакетов для создания речевых приложений, так называемых Software Development Kit (SDK), поддерживающих тот или иной стандарт. Так компания Philips создала пакет Speech SDK, который поддерживает спецификацию Voice XML и выполнен для связи с C/C++ API.

Независимые пользовательские приложения

В настоящее время рынок программных распознавателей речи представлен множеством приложений. Хотелось бы отметить Dragon Naturally Speaking Preferred фирмы Dragon Systems – это единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом она очень близко подходит к достижению заявленной безошибочности распознавания – 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном – способности с первого раза правильно распознавать произнесенные слова. К сожалению, данный пакет не поддерживает русский язык.

Российский рынок программных средств распознавания речи представлен единичными разработками. Из всех программ, изначально разрабатываемых для русского языка, только ПО от белорусской компании «Сакрамент» может конкурировать по качеству распознавания с зарубежными аналогами.

Специализированные приложения

Распознавание речи может применяться не только для ввода текста или подачи команд, но и для более специфичных целей. Так компания «Центр Речевых Технологий» разрабатывает и производит программные продукты, технологии и образцы техники для подразделений МВД, ФСБ, МЧС, служб экстренной помощи, центров обработки вызовов и для других пользователей, в деятельности которых особое значение придается регистрации и обработке речевой информации.

Компанией созданы следующие приложения: «ИКАР Лаб» – инструментальный комплекс криминалистического исследования фонограмм речи, «Трал» – автоматизированный комплекс распознавания дикторов в фонограммах телефонных переговоров, «Территория» – автоматизированная система диагностики диалектов и акцентов русской устной речи.

Устройства, выполняющие распознавание на аппаратном уровне

Для использования функций речевого распознавания в различных устройствах, роботах, игрушках, разрабатываются аппаратные методы. Так американская компания Sensory Inc. разработала интегральную схему Voice Direct™ 364, осуществляющую дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Перед началом эксплуатации модуль необходимо обучить всем командам, используемым в работе. Команды сохраняются во внешнюю память в виде образов размером 128 байт. Во время работы, образ очередной команды сравнивается с эталонными из памяти в нейросетевом модуле и принимается решение о совпадении

Теоретические исследования и разработки

Разработкой теоретической базы в области речевых технологий занимается множество исследовательских групп по всему миру. В первую очередь это такие крупные корпорации как IBM, Intel, Microsoft, AT&T. Эти компании занимаются теорией распознавания уже не один десяток лет и являются законодателями в этой области.

В России также ведутся исследования в области речевого распознавания. Например, в лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН занимаются этой проблемой уже более 30 лет. Главным научным и практическим направлением деятельности лаборатории в настоящее время является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков. На филологическом факультете СПбГУ ведутся работы по автоматическому переводу устной речи.

Заключение

Итак, подведем итог. Разработок и способов на распознаванию человеческой речи создано множество, но еще ни одна из них до конца не решила заданную проблему. Эксперты даже расходятся во мнениях, когда будет решена проблема распознавания речи, но большинство все же считает, что она разрешится в относительно скором времени, и у нас появятся программы, которые будут распознавать речь большинства людей, то есть принимать во внимание все роды ошибок и дефектов речи.

6. Список литературы

1. Галунов В.И., Соловьев А.Н. «Современные проблемы в области распознавания речи», AudiTech ltd., Санкт-Петербург

2. Институт Проблем Управления: http://www.ipu.ru

3. Скрелин П.А. «Автоматический перевод устной речи – модель языковой коммуникации»

4. Центр Речевых Технологий: http://www.speechpro.ru

5. Audio-Visual Speech Recognition (AVSR): http://www.intel.com

6. Dragon NaturallySpeaking Solutions: http://www.dragonsys.com

7. IBM embedded Via Voice Enterprise Edition: http://www.ibm.com/software/speech/

8. Speech Recognition Home: http://www.philips.com/speechrecognition/

9. Speeding Medical Documentation: http://www.provox.com

10. Voice Recognition Module: http://www.sensoryinc.com

Добавить документ в свой блог или на сайт

	Конспект урока на тему "Алгоритм. Свойства алгоритмов. Виды алгоритмов... ...		Требовани я к оформлению информационной карты алгоритмов и программ Информационная карта алгоритмов и программ (икап) представляет собой информационный документ и содержит сведения о разработанной...
	Тема: «Системы распознавания текста» Цели урока Цели урока: дать учащимся представление об orc – программах распознавания текста, познакомиться с возможностями данных программ		Разработка и исследование алгоритмов распознавания изображений на...
	Реферат На тему: «История развития дополнительного (внешкольного) образования» Актуальная проблема нашего времени среди молодежи – проблема проведения свободного времени		Рабочая программа по дисциплине опд. Р. 01 Физико-химические методы... Дисциплина «Физико-химические методы распознавания фальсификации товаров» предполагает научить студентов современным методам распознавания...
	Реферат по дисциплине «Информационные технологии» на тему: «Вирусы и Антивирусы» Пути проникновения вирусов в компьютер и механизм распределения вирусных программ		Реферат по дисциплине «Экономическая информатика» на тему: «Информационная... Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования
	Реферат по дисциплине «Информатика» на тему: «Роль информационных... Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования		Реферат по дисциплине «Обществознание» На тему : «Ребенок-инвалид полноценный член общества» Однако, данная проблема, несмотря на однозначную оценку со стороны общественных институтов, не так проста, как может показаться на...
	Реферат для поступления в аспирантуру по (указать направление, профиль) на тему: Москва, 2014 г Письменный реферат является самостоятельной работой, содержащей обзор состояния сферы предполагаемого исследования		Реферат по дисциплине «Экономическая информатика» на тему: «Информация... Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования
	Реферат по дисциплине «Русский язык» на тему «Слова-паразиты в нашей речи» ...		Реферат По дисциплине «Русский язык и культура речи» на тему «Культура делового общения» Для делового общения используют официально-деловой стиль. В книге «Культура устной и письменной речи делового человека» приводится...
	Технология подготовки и написания реферата реферат Реферат – это краткое изложение в письменном виде содержания книги, учения, научной проблемы, результатов научного исследования на...		Программа по формированию навыков безопасного поведения на дорогах... Тема: Понятие алгоритмов, свойства алгоритма. Исполнители алгоритмов, система команд исполнителя. Способы записей алгоритмов. Формальное...

Реферат на тему «Проблема распознавания речи. Обзор алгоритмов и программ» по дисциплине «Информатика»

2. Основные подходы к решению задачи распознавания речи

Распознавание отдельных команд

Распознавание по грамматике

Поиск ключевых слов в потоке слитной речи

Распознавание слитной речи на большом словаре (LVCSR — large vocabulary continuous speech recognition).

Этапы распознавания

Обеспечение высокого качества распознавания

Современные системы распознавания речи

Технологии для аппаратных реализаций

Наборы библиотек для разработки приложений

Независимые пользовательские приложения

Специализированные приложения

Устройства, выполняющие распознавание на аппаратном уровне

Теоретические исследования и разработки

Похожие: