Скачать 260.87 Kb.
|
Научная новизна данной диссертационной работы состоит в том, что исследована проблема и разработан алгоритм классификации текстов и соответствующая методика смыслового анализа текстов. Впервые в качестве метода составления поискового образа текста был определен отбор слов на основе частотного словаря общеупотребительной лексики.Задача автоматического определения тематической принадлежности текстов решена на основе расчета и эвристического анализа меры близости текстов к словарю предметной области.Предложена концепция применения ряда независимых эвристических алгоритмов для структуризации числовых данных, что увеличивает достоверность результатов работы системы смыслового анализа. На защиту выносятся следующие основные положения:
Теоретическая значимость исследования состоит в обобщении имеющегося опыта применения математической статистики для смысловой обработки текстов; в развитии и обогащении научного представления о значимости анализа текстов для информационно-поисковых систем, применяемых в библиотеках. Практическая значимость состоит в том что, созданы и опубликованы в Интернете на сайте ГПНТБ России полнотекстовые базы данных докладов конференции “Крым 2002-2003” и статей сборника НТБ ГПНТБ России. Общее число текстов в базах 1300. Время, затраченное на создание баз данных и тематическую классификацию текстов по методике, разработанной в диссертационном исследовании, составило один рабочий день, тогда как на создание библиографических описаний этого же объема документов пришлось бы потратить не менее 60 дней. В результате диссертационного исследования разработана полнофункциональная библиотека доступа к базам данных, которая используется в клиент-серверной версии системы автоматизации библиотек ИРБИС - ИРБИС64. Разработана система визуального эвристического анализа числовых данных, которая неоднократно применялась на практике при решении экспертных задач в различных областях знаний. При этом на каждую из задач тратилось от 2 часов до 2 дней. Решение тех же задач традиционными методами требовал нескольких месяцев работы и не всегда позволял выявить те же закономерности в предметной области. В рамках расширения возможностей системы визуального эвристического анализа разработана программа “Визуальный трехмерный анализ временных измерений на плоскости (Visual HCA 3D)”, которая используется в учебном процессе Российской академии государственной службы при Президенте Российской Федерации (акт о внедрении прилагается). Апробация результатов исследований состояла в публикации материалов исследований в отечественных и зарубежных периодических изданиях, в выступлениях с докладами на отечественных и зарубежных конференциях и опубликовании текстов этих докладов. Основные результаты диссертационной работы были представлены на следующих международных конференциях:
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения. ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ В первой главе “Автоматизированная система смысловой обработки текстов” проведен обзор существующих программных продуктов для смыслового анализа текстов. Сделан вывод о необходимости расширять возможности существующих в России систем автоматизации библиотек за счет включения в них средств смыслового анализа текстов. Основная идея предлагаемой автоматизированной системы смыслового анализа текстов основана на тенденции любой информации объединяться в тематические группы “по интересам”. Это явление отражает тот факт, что различные отрасли знаний имеют свой внутренний, присущий им язык (терминологию). В данной главе научно обоснована возможность использования математической статистики для выделения естественно-тематических групп из однородной массы текстового материала. Далее в главе приводится описание разработанных подходов к решению задачи смысловой обработки текстов:
В главе приводится подробная методика работы автоматизированной системы смысловой обработки текстов. Выделены следующие этапы этой работы:
В результате использования предлагаемой системы полнотекстовые электронные ресурсы библиотеки становятся частью поискового пространства, доступного читателю библиотеки. Кроме поиска по словам из текстов, читатель получает дополнительную возможность находить тексты, близкие к заданному образцу. В качестве текста образца может выступать поисковый запрос читателя на естественном языке, произвольный полный текст (внешний по отношению к базе данных) или текст из базы данных. Помимо конечного пользователя (читателя) система ориентирована на пользователя-эксперта, в задачу которого входит предварительная работа по созданию полнотекстовой базы данных и естественно-тематическая классификация текстов. Подробней работу эксперта можно представить следующим образом. Первым шагом является создание полнотекстовой базы данных и на ее основе - базового словаря. Базовый словарь – это набор слов из исходного массива текстов, частота встречаемости которых превышает общеупотребительную частоту. Общеупотребительная частота слов берется из заранее заготовленного словаря общеупотребительной лексики, созданного на основе представительного массива газетных текстов. Создаваемый базовый словарь включает слова из всех тематических подъязыков, использованных авторами текстов. Рекомендуется ограничивать создаваемую базу данных по тематике, иначе естественно-тематические группы не удается выделить статистически значимо (так как для этого надо иметь очень большое количество текстов). На основе базового словаря создаются предметно-ориентированные словари, которые служат основным инструментом классификации текстов. Прежде всего определяется общий предметно-ориентированный словарь, в который включаются слова из базового словаря, прошедшие через заданные экспертом критерии отбора. Последовательность применения критериев отбора слов следующая:
Далее рассчитывается числовая матрица текст\слово, элементом которой является частота встречаемости данного слова из общего предметно-ориентированного словаря в данном тексте. На основе матрицы текст\слово рассчитываются квадратные симметричные матрицы слово\слово и текст\текст. Элементом матрицы текст\текст является число слов из общего предметно-ориентированного словаря, которые встретились в паре данных текстов. Элементом матрицы слово\слово является число текстов, в которых встретилась данная пара слов. На основе матрицы слово\слово определяются частные предметно-ориентированные словари, а на основе матрицы текст\текст определяются тематические группы текстов и тексты-представители (тематические ядра) для данной группы. Предметно-ориентированные словари, включающие слова с повышенной (по сравнению с общеупотребительной лексикой) частотой встречаемости, являются новым поисковым инструментом работы с текстами. Распределение терминов предметно-ориентированного словаря по данному тексту является его поисковым образом, который автоматизированная система представляет в числовом виде. Данное числовое представление является начальной точкой работы алгоритмов сравнения текстов и классификации текстов на основе системы визуального эвристического анализа. Несколько слов о накоплении исходной текстовой информации, необходимой для достоверной классификации. Практика работы с системой показывает, что минимальный объем текстовой информации для организации естественно-тематической классификации составляет 10 Мб, а размер одного текста должен быть не менее 5 Kb и не более 100 Kb (при большем объеме текста имеют место повторения терминологии и/или расширение тематики). В процессе накопления текстовой информации без существенного изменения ее тематики система естественным образом стремится к устойчивому набору предметно-ориентированных словарей, которые в свою очередь могут подвергаться дроблению по тематической иерархии. С ростом объема информации однородной тематики автоматизированная система позволяет сравнивать тексты, не изменяя предметно-ориентированных словарей. Особенности работы автоматизированной системы смысловой обработки текстов в диссертации иллюстрируются на примере набора статей социологической и экологической тематики. Во второй главе “Система визуального эвристического кластерного анализа Visual HCA” приводится описание методики работы с системой визуального эвристического кластерного анализа (Visual Heuristic Cluster Analysis), разработанной автором совместно с П.П. Макагоновым [1]. Visual HCA применяется в системе смыслового анализа текстов для тематической классификации текстов. Используя программу эвристического кластерного анализа, эксперт определяет естественно-тематические группы путем структуризации числовых матриц, отражающих распределение слов по текстам. Такая структуризация носит название кластеризации; кластер - это группа объектов, которая может быть выделена из общей массы на основании каких-либо критериев. В нашем случае объектами служат тексты базы данных или слова из текстов. Группы текстов в кластере дают информацию о том, какие темы, пока еще не сформулированные на естественном языке, представлены в полнотекстовой базе данных. Группы слов в кластере составляют предметно-ориентированные словари для описания этих тем. В главе показано, что в силу неоднозначности и контекстной зависимости естественного языка задача смысловой обработки текстов относится к разряду слабоформализованных. Такие задачи отличаются неопределенностью постановки и отсутствием формализованных математических (аналитических) или технологических (алгоритмических) процедур обработки данных; связаны с нечеткой, неоднозначной формулировкой цели и отсутствием устойчивой системы понятий и моделей. Такие задачи, не допускающие полной формализации, решаются с применением эвристик. Иными словами, для решения задачи смысловой обработки текстов необходимо участие человека (экспертная оценка). Система Visual HCA представляет собой инструмент, который помогает эксперту в выработке понятий и концепций при решении таких слабоформализованных задач. Система позволяет обрабатывать матрицы, содержащие сотни объектов и атрибутов. Последние могут быть количественными и качественными. Особенностью системы является графический диалог с экспертом, обеспечивающий наглядность работы. Приведенные в главе примеры демонстрируют возможности Visual HCA как средства решения слабоформализованных задач. В Приложении в описаны основные принципы, заложенные в систему, что позволяет экспертам, не знакомым со специальными разделами математической статистики, ознакомиться с работой системы, не вникая в частные детали. В главе показано, что программа визуального эвристического анализа позволяет эксперту в визуальном диалоговом режиме определить группы слов, как ряд предметно-ориентированных словарей. В итоге каждому тексту соответствует один или более предметно-ориентированный словарь, что сохраняется в базе данных в виде числового кода – тематического индекса. Набор предметно-ориентированных словарей составляет естественно-тематический классификатор базы данных. В третьей главе “Описание работы алгоритмов классификации текстов” говорится о том, как система смыслового анализа текстов работает по запросу читателя и как производится оценка близости текстов (релевантность). Приводятся подробные описания:
На основе эмпирического закона Ципфа в главе дано научное обоснование алгоритма отбора слов в естественно-тематический словарь, определяющий основной тематический контекст базы данных, и на практических примерах демонстрируется достоверность его работы. Далее в главе подробно описывается алгоритм создания естественно-тематического классификатора полнотекстовой базы данных, который основан на разбиении основного естественно-тематического словаря на ряд предметно-ориентированных словарей. На конкретных примерах продемонстрирована методика работы и показано, как получить наиболее достоверную тематическую классификацию массива текстов. В следующем разделе главы приводится алгоритм сравнения текстов и числовой оценки их близости, заключающийся в подборе такой тематической группы в классификаторе базы данных, предметно-ориентированный словарь которой наиболее широко представлен в данном тексте. В главе показано, что среднее значение числа слов из предметно-ориентированного словаря, присутствующих в текстах из данной тематической группы, колеблется в широких пределах. Набор таких слов данного текста с номером i из предметно-ориентированного словаря с номером j как ПОСij. Конкретное значение ПОСij сильно зависит от объема предметно-ориентированного словаря. Фактически ПОСij – это словарь, описывающий данный текст i в контексте тематической группы с индексом j. Такие словари принято называть поисковым образом текста. Число слов в ПОСij зависит от суммарного числа слов в тексте, и если для каждого текста ввести коэффициент отклонения от максимального числа слов Wi, Wi = Ni/Nmax где: Ni – число слов в тексте с номером i; Nmax – максимальное число слов. то абсолютный коэффициент отношения данного текста i к тематической группе с индексом j с учетом размера текста будет равен Kij. Kij = ПОСij*Wi При естественно-тематической классификации текста c номером i для каждого тематического индекса j рассчитываются значения: R0ij, которое в работе предлагается называть релевантностью текста с номером i тематической группе с индексом j, и значение Rij – релевантность c учетом размера текста. Rij = Kij / NNj R0ij = ПОСij / NNj где: ПОСij – число слов из предметно-ориентированного словаря с индексом j, присутствующих в тексте i; NNj – общее число слов в предметно-ориентированном словаре с номером j. При поиске близких текстов пользователь системы (читатель) получает отсортированный по значению релевантности список текстов. В диссертационной работе показано, что учет размера текста делает релевантность более устойчивой величиной при переходе от текста к тексту внутри тематической группы. На практических примерах показано, как изменяются значения релевантности в зависимости от тематической принадлежности текста. В четвертой главе “Система смысловой обработки текстов в современной библиотеке как перспективное направление развития ИРБИС” рассматриваются ближайшие перспективы развития системы автоматизации библиотек ИРБИС, связанные с включением в нее системы смыслового анализа текстов для создания полнотекстовых хранилищ данных в современной библиотеке. До завершения настоящего диссертационного исследования система автоматизации библиотек ИРБИС (ИРБИС32) использовала структуру хранения данных пакета прикладных программ CDS/ISIS, которая специально ориентирована на хранение и поиск больших объемов текстовой информации. Особенности ИРБИС32 в сравнении с реляционными СУБД это - переменная длина полей, малая связность записей и текстовый формат данных. Наряду с очевидными достоинствами, данная структура имеет недостатки, связанные с существенными количественными ограничениями, такими как - физические размеры файлов баз данных и, в частности, словарей (что не позволяет создавать достаточно большие полнотекстовые базы данных), максимальная длина записи, максимальная длина поискового термина. В связи с этим в рамках развития системы ИРБИС и реализации представляемой системы смыслового анализа текстов как расширения ИРБИС был разработан новый формат хранения данных и оригинальная полнофункциональная библиотека доступа к базам данных - ИРБИС64. Фактически это новая СУБД, ориентированная на работу в современных операционных системах, причем формат хранения обеспечивает платформенную независимость физических файлов базы данных, что на сегодняшний день является необходимым техническим требованием. На основе ИРБИС64 разработана клиент-серверная версия системы ИРБИС. В главе показано, что ИРБИС64 можно использовать в библиотеках для создания полнотекстовых баз данных, включающих массивы текстов электронного фонда. Такие базы данных можно использовать для поиска по словам из текстов электронного фонда, осуществлять их тематическую классификацию и смысловой анализ. Применение смыслового анализа текстов для создания полнотекстовых баз данных в современной библиотеке рассматривается разработчиками ИРБИС в качестве одного из основных положений концепции развития системы. Заключение. Электронные фонды современной библиотеки с нарастающими темпами накапливают неструктурированные текстовые ресурсы. Причем объем накопленной текстовой информации может быть таким значительным, что задача подготовки их полного библиографического описания становится крайне затруднительной. Очевидна необходимость применения специальных технических решений для предоставления пользователям библиотеки доступа к многообразию электронных текстовых массивов. В настоящее время в России и за рубежом активно развиваются автоматизированные системы смыслового анализа текстов. В диссертационном исследовании дан общий обзор существующих программных продуктов, на основе которого сделан вывод о необходимости разработки системы смыслового анализа текстов, адаптированной к применению в системах автоматизации библиотек. В диссертационной работе предлагается методика создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде, при этом любой массив электронных текстов рассматривается как электронный фонд. В диссертационном исследовании показано, что задача смыслового анализа текстов включает следующие основные этапы:
Для реализации первого этапа – создание полнотекстовой базы данных - была использована система автоматизации библиотек ИРБИС. В настоящее время система ИРБИС, в разработке которой принимал участие и автор настоящей работы, применяется более чем в 600-ах библиотеках России, СНГ и других стран. С целью включения в систему ИРБИС алгоритмов смысловой обработки текстов была разработана новая структура хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64. В рамках реализации второго этапа - классификация текстов - были проведены теоретические исследования и сделаны выводы о возможности применения методов математической статистики для решения этой задачи. В диссертационном исследовании показано, что задача классификации текстов относится к слабоформализованным и должна решаться с помощью эвристических (предусматривающих участие эксперта) алгоритмов. Специально для решения таких задач была разработана и реализована система визуального эвристического анализа числовых данных, которая доказала свою эффективность при решении практических вопросов в различных научных областях. Важным аспектом системы автоматизированного анализа текстов является тот факт, что все специальные подробности применения математической статистики скрыты от пользователя и для работы с системой требуется только знание предметной области полнотекстовой базы данных. В диссертационной работе даны практические рекомендации по применению системы визуального эвристического анализа специалистами библиотеки при классификации текстов. На конкретных примерах продемонстрированы возможности системы. Для неспециалистов в области математической статистики в Приложении дается подробное описание принципов работы системы. Достоверность работы автоматизированной системы смыслового анализа текстов обеспечивается алгоритмами числовой оценки меры близости текстов, составляющими последний, третий этап решения общей задачи. В диссертационном исследовании показано, что основным инструментом смыслового сравнения текстов являются предметно-ориентированные словари, содержащие слова с повышенной частотой встречаемости. Набор таких словарей составляет естественно-тематический классификатор полнотекстовой базы данных. Расчеты и практические оценки меры близости текстов на конкретных примерах подтверждают достоверность работы алгоритмов смыслового анализа текстов. Поставлен вопрос о соотношении рубрикаторов, применяемых в библиотеке при создании библиографических описаний, и естественно-тематического классификатора системы. В диссертационном исследовании даны практические рекомендации по применению автоматизированной системы смыслового анализа текстов в библиотеках. Освещены вопросы дополнительного обучения специалистов библиотеки для работы с предлагаемой системой. По результатам работы сделаны следующие выводы:
По теме диссертации опубликованы следующие работы автора:
Подписано в печать 24.12.2003 Объем 1,2 п.л. Тираж 100 экз. Заказ №_____________Репрографический центр ГПНТБ России 107996, Москва, Л-31, ГСП-6, Кузнецкий мост, 12 |
Инструкция по подготовке и передаче перечня электронных ресурсов... «О создании Республиканской межвузовской электронной библиотеки», вузы должны создавать свои полнотекстовые базы электронных библиотек... | “Информационные системы в экономике” Система "Клиент-Банк" автоматизированная компьютерная система электронных расчетов через модемную связь | ||
"Автоматизированная система поддержки принятия решений по оценке... ... | А. С. Пушкин «О сколько нам открытий чудных…» Сегодня интерес к чтению, посещению библиотеки сократился в несколько раз. Причины очевидны: распространение интернета, появление... | ||
V. G. Abashin автоматизированная система обработки биометрических... Книги, периодика, графика, справочная и техническая литература для учащихся средних и высших учебных заведений | Название доклада/проекта Автоматизированная система контроля температурных полей при горячей обработке давлением | ||
5000 от 12. 12. 2012 г. Стандарт качества муниципальной работы «Формирование... Обеспечение соответствия состава библиотечного фонда задачам библиотеки и потребностям читателей | Реферат Дипломный проект на тему «Автоматизированная система управления... Дипломный проект на тему «Автоматизированная система управления санаторным комплексом «Валуево». Подсистема «Диетпитание» состоит... | ||
План работы Трёхбалтаевской сельской библиотеки на 2012 год Основные задачи работы библиотеки Доставка документов в оригиналах и копиях по запросам пользователей из фондов других библиотек | «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий... | ||
Урок 6 10 класс Тема: «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий... | Пояснительная записка Версия 4 от “22” октября 2005 года Архитектура программного обеспечения, электронное государство, стандартизация, профиль стандартов, стандартизованные спецификации,... | ||
Пояснительная записка к дипломной работе на тему: «Автоматизированная... «Автоматизированная система ввода плана эвакуации для разработки паспортов безопасности учебных заведений рф» | Вопросы к Государственному экзамену Использование программ обработки текстов, компьютерной графики, макетирования и верстки при составлении рабочих документов, презентационных... | ||
Реферат Тема дипломной работы: «Основные производственные фонды и... Основные фонды, оценка основных фондов, классификация основных фондов, амортизация основных фондов, износ основных фондов, коэфициент... | Бюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная... Получен из типографии очередной научно-технический бюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная система... |