Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный





Скачать 53.03 Kb.
НазваниеНормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный
Дата публикации28.08.2013
Размер53.03 Kb.
ТипДокументы
100-bal.ru > Астрономия > Документы
НОРМАЛИЗАЦИЯ И РЕДУКЦИЯ ПРОСТРАНСТВ ПРИЗНАКОВ СТИЛЕЙ ТЕКСТОВ

А.С.Кравцова, В.В.Поддубный

Томский государственный университет

Рассматривается произвольный набор признаков, характеризующих, по мнению исследователя, стиль текстового произведения того или иного жанра. Таким набором могут быть, например, служебные слова, наиболее часто встречающиеся слова, биграммы и т.п., а также такие качественные признаки, как эмоциональное воздействие, легкость восприятия, красота стиля и т.п. Каждый признак измеряется количественно либо относительной частотой его появления в исследуемом тексте произведения, либо некоторой неотрицательной экспертной балльной оценкой. Эти количественные характеристики определяют пространство признаков стилей текстов. Каждый конкретный набор количественных признаков, характеризующий определенный текст, геометрически можно представить точкой в многомерном признаковом пространстве, по осям координат которого откладываются значения различных признаков (сколько признаков, столько и значений, столько и осей, и такова размерность признакового пространства). Множество разных текстов представляется в таком признаковом пространстве множеством точек, образующих «облако» точек, или диаграмму рассеяния текстов.

Однако признаки из выбранного набора в общем случае не являются равноценными. Некоторые из них в определённом смысле лучше характеризуют стиль автора или жанра. Они обладают большей изменчивостью колличественных значений при смене автора или жанра, больше рассеивают точки-тексты в «своих» координатах признакового пространства и, следовательно, позволяют лучше различать тексты разных авторов или жанров. Другие – хуже (меньше изменчивость частот или баллов, меньше различительная способность). Некоторые же вообще не имеют статистически значимой изменчивости, не обладают никакой различительной способностью, являются «шумовыми». Кроме того, алгоритмы дальнейшего анализа текстов, их классификации, распознавания, различения (дискриминации) по стилю, жанру, авторам и т.п. обычно ориентированы на нормальное (гауссово) распределение признаков. В то же время относительные частоты исходной системы признаков стилей текстов, а тем более экспертные оценки, далеко не всегда согласуются с нормальным распределением. Возникает проблема применимости известных параметрических (предполагающих известным, именно, гауссовым, закон распределения признаков) методов математической статистики для решения указанных задач анализа текстов.

Поскольку непосредственное применение этих методов в задачах анализа текстов в общем случае математически некорректно, в данной работе рассматривается нелинейное преобразование колличественных характеристик, которое обеспечит нормальность распределения признаков.

Рассмотрим вариационные ряды относительных частот каждого из признаков в исследуемых текстах. Пусть в исследовании участвует n текстов различного (в общем случае) объёма Ni, . Пусть выбрано m признаков стиля текстов (например, m служебных слов или биграмм). Каждый j-й признак () появляется в i-м тексте νij раз. Числа νij являются абсолютными частотами появления j-го признака в i-м тексте и могут быть представлены в таблице, столбцы которой соответствуют признакам, а строки – текстам. Очевидно, сумма абсолютных частот νij каждой i-й строки определяет общее число νi появления принятого набора признаков в соответствующем i-м тексте: , . Тогда будет относительной частотой появления j-го признака в i-м тексте, причем для всех . Таким образом, относительные частоты выражают относительные доли признаков и принимают значения в интервале от 0 до 1, так что они не могут в общем случае описываться нормальным распределением. Все частоты каждого из текстов можно представить в виде вектора, определяющего координаты i-й точки-текста в признаковом пространстве. Упорядочим эти относительные частоты в объединенной выборке в порядке возрастания. Место каждого элемента выборки в вариационном ряду называется его рангом. Таким образом, вектору-строке относительных частот признаков будет соответствовать вектор-строка их рангов в объединенном ряду, .

К такому же ранговому вектору можно привести и балльные оценки качественных признаков.

Известно [2], что при достаточно общих условиях ранги как угодно распределенных элементов вариационного ряда имеют равномерное распределение вероятностей в интервале от единицы до объёма выборки n. Это следует из того, что эмпирическая интегральная функция распределения рангов является равномерно возрастающей на интервале от 0 до n ступенчатой функцией.

Разделим вектор рангов на n+1. Это приведёт множество значений рангов к интервалу от до . Назовём полученный таким образом вектор вектором относительных рангов. Преобразуем вектор относительных рангов с помощью функции, обратной интегральной функции стандартного нормального распределения. В результате получим набор векторов , , с нормальной стандартной эмпирической функцией распределения. Таким образом, мы получили нормальные значения для каждого из признаков текста.

В связи с тем, что признаки из полученного набора, как правило, статистически связаны между собой, произвольно выбранный набор признаков является избыточным. Возникает проблема такого преобразования признакового пространства, которое позволяет выявить минимальный набор статистически независимых признаков, связанных с исходным набором признаков, но скрытых в природе текстов.

Одним из инструментов такого преобразования признакового пространства является хорошо известный в математической статистике метод главных компонент (Principal Components Analysis – PCA) [1]. Возможно было провести метод главных компонент на начальном наборе значений, при условии, что они являются частотными.

Метод состоит в таком линейном преобразовании координат признакового пространства (повороте его осей), при котором оси нового признакового пространства разворачиваются в направлениях максимального разброса точек диаграммы рассеяния. Первая ось (первая главная компонента) – в направлении максимального разброса точек, вторая ось (вторая главная компонента) – в направлении максимального разброса точек перпендикулярно первой оси, третья ось (третья главная компонента) – в направлении максимального разброса точек перпендикулярно первым двум осям, и т.д. Получается набор уже некоррелированных между собой новых признаков (факторов), дисперсии которых убывают с ростом номера главной компоненты. При этом некоторое количество первых главных компонент почти полностью определяют весь разброс точек, т.е. почти всю изменчивость текстов (с точки зрения выбранной системы признаков), так что остальными главными компонентами можно пренебречь.

Получаем нелинейную статистическую редукцию признакового пространства, описываемого в общем случае ненормально распределенными статистически зависимыми между собой абсолютными частотами ν набора признаков стилей текстов, к пространству новых факторов – нормально распределенных некоррелированных главных компонент y меньшей размерности, позволяющих использовать параметрические методы дискриминантного анализа и классификации.

Описанная процедура реализована в программном продукте «Стилеанализатор» [3], предназначенном для комплексного статистического анализа стилей текстовых произведений различных жанров и авторов.

Литература

  1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ / Пер. с англ. – М.: Мир, 1982. – 488 с.

  2. Холлендер М., Вулф Д.А. Непараметрические методы статистики / Пер. с англ. – М.: Финансы и статистика, 1983. – 518 с.

  3. Шевелёв О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Дис. … канд. техн. наук: 05.13.18, Томск, 2006. – 176 с.

Работа поддержана грантом РФФИ 05-07-89320.

Добавить документ в свой блог или на сайт

Похожие:

Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconПояснительная записка программа курса «Функциональная стилистика»
Программа курса «Функциональная стилистика» предназначена для изучения языковых явлений в тексте. Программа предполагает стилистический...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconМассовой информации
Стилей речи, изучение системы жанров pr-текстов и форм их подачи в средства массовой информации. Кроме того, дисциплина содержит...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconИзложение содержания прослушанного или прочитанного текста (подробное,...
Сферы и ситуации речевого общения. Функциональные разновидности языка. Основные особенности разговорной речи, функциональных стилей...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconК вопросу реновации общественных пространств в городах германии чуй...
В этой связи интересно рассмотреть опыт реновации открытых общественных пространств городов Германии
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconПрограмма дополнительного образования
Данная программа направлена на обучение детей владеть устным и письменным словом в процессе создания текстов разных стилей и жанров,...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconОтчёт о проведении «Уроков культуры речи» в гбоу №628 «Александринская...
Диспут «Язык и речь»: в чём заключается культура русской речи, слушание, понимание текстов разных типов, стилей, жанров
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconИспользование ит в корпусных исследованиях
Охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconНормализация окклюзии зубных рядов у больных с врожденной полной...
Нормализация окклюзии зубных рядов у больных с врожденной полной расщелиной верхней губы и неба
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconУрок физики в 10-м классе по теме: "Реактивное движение"
Обучить распознаванию признаков реактивного движения; обеспечить усвоение учащимися признаков закона реактивного движения
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconПрограмма по формированию навыков безопасного поведения на дорогах...
Сформировать понятие признаков равенства прямоугольных треугольников на основе признаков равенства треугольников
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconПонятие функционального стиля. Основания классификации функциональных стилей
Однако общим является признание функциональной природы стилей, их связи с определенной сферой речевого общения и видами человеческой...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconОнлайн бронирование туристских услуг кравцова Е. А
Северо-Кавказский федеральный университет (355029, г. Ставрополь, просп. Кулакова, 2)
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный icon13. Юридический состав правонарушения
Данная система признаков является необходимой и достаточной для привлечения правонарушителя к юридической ответственности. При этом...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconКонкурса Дата Тема работы
Иванюта О. А, Дежко С. А., Зорихина Т. Д., Светова Т. М., Богданова Г. В., Богданов А. Г., Ефремкина Н. В., Бойко Е. И., Кирсанова...
Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconГрадостроительная реконструкция системы пешеходных прогулочных пространств...

Нормализация и редукция пространств признаков стилей текстов а. С. Кравцова, В. В. Поддубный iconРеферат Объективные признаки административного налогового правонарушения
Любое административное правонарушение, в том числе и налоговое, характеризуется наличием объективных и субъективных признаков. В...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск