Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки





Скачать 260.87 Kb.
НазваниеАвтоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки
страница1/2
Дата публикации17.04.2015
Размер260.87 Kb.
ТипАвтореферат
100-bal.ru > Информатика > Автореферат
  1   2



На правах рукописи


Сбойчаков Константин Олегович


Автоматизированная система

смысловой обработки текстов

при создании электронных фондов библиотеки

05.25.05 - информационные системы и процессы,

правовые аспекты информатики
АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

МОСКВА-2003

Работа выполнена на кафедре информационных технологий и электронных библиотек Московского государственного университета культуры и искусств.


Научный руководитель: кандидат технических наук

А.О. Адамьянц
Научный консультант: доктор физико-математических наук,

профессор П.П. Макагонов

Официальные оппоненты: доктор технических наук,

профессор А.Н. Павлов

кандидат технических наук Г.З. Залаев
Ведущая организация: Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук

Защита состоится 28 января 2004 года в 11 часов на заседании диссертационного совета Д 210.010.01 при Московском государственном университете культуры и искусств по адресу: 14140, Московская область, г. Химки – 6, ул. Библиотечная 7, ауд. 218 (новый корпус).
С диссертацией можно ознакомиться в научной библиотеке Московского государственного института культуры и искусств.
Автореферат разослан “ ” 2003 г.


Ученый секретарь

диссертационного совета В.Т. Клапиюк
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов. В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п.

Данная работа исследует проблему и предлагает научно-обоснованную методику создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде. В данной диссертации предполагается рассматривать полнотекстовые базы данных, создаваемые библиотекой, как часть электронного фонда библиотеки, а электронный фонд, по существу, есть часть общего фонда библиотеки со всеми приданными ему характеристиками. В общедоступных библиотеках такой массив текстов документов обычно возникает как результат сканирования текстов по частным заказам пользователей. С возрастанием объемов накопленной информации возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту – возможность выделять подклассы текстов по заданной тематике (в дальнейшем - естественно-тематические группы текстов).

В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Yahoo, Yandex) поддерживают алгоритмы поиска текстов “схожих” с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это “Следопыт”, ”ТекстАналист”) позволяют проводить автоматическую классификацию и реферирование текстов.

Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект IST, 1998-2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система “Excalibur RetrievalWare” производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.

Создание систем смыслового анализа текстов до настоящего времени происходит с минимальным участием лингвистов. Это обусловлено использованием для решения этой задачи в основном статистических методов. Области, в которых наиболее сильны позиции профессиональных лингвистов, это в первую очередь лексико-грамматический и синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование. Научный и практический опыт лингвистов получил широкое применение в системах автоматического перевода и контекстного анализа, при создании тезаурусов и словарей, и т.д. Наиболее известные лингвистические программные продукты на рынке России:

  1. “Retrans Vista” - система автоматизированного перевода текстов. Система базируется на технологии фразеологического перевода компании “Виста Текнолоджиз”, образованной специалистами из Всероссийского института научной и технической информации Российской Академии наук (ВИНИТИ РАН), стоящими у истоков создания отечественной компьютерной лингвистики. Группа этих специалистов под руководством профессора Г.Г. Белоногова начала разрабатывать основы технологии машинного перевода более 20 лет назад;

  2. “MediaLingua”, “ABBYY Lingvo” - электронные словари;

  3. “PROMT” - системы машинного перевода;

  4. развитые средства контроля орфографии “Microsoft Word”;

  5. в научно-производственном центре “Интелек Плюс” ведется разработка информационно-поисковых систем (ИПС), ориентированных на естественно-языковое общение с пользователем.

Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений, автоматическая классификация текстов, расчет релевантности текстов поисковому запросу - можно выделить в отдельный класс, к которому относится и система, разработанная автором данной диссертации.

В России работы по смысловому анализу текстов только начинают проводиться, главным образом они ведутся:

  1. в Институте программных систем РАН. Разработана система “Кластер” для формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов;

  2. в корпорации “Галактика”. Разработана автоматизированная система поиска и аналитической обработки информации “Galaktika-ZOOM”. Это дорогая коммерческая система, имеющая клиентов в рекламном бизнесе, органах управления и средствах массовой информации;

  3. в компании “Гарант-Парк-Интернет”. Разработаны программные продукты для анализа и классификации текстов, автоматического реферирования, морфологичеcкого, синтаксического и семантического анализа текста, для навигации по большим массивам текстов;

  4. в Научно-производственном инновационном центре "МикроСистемы". Разработана система “ТекстАналист”. Система осуществляет построение семантической сети понятий, выделенных в обрабатываемом тексте, смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса, автоматически реферирует текст;

  5. в компании “MediaLingua”. Разработана интеллектуальная система “СЛЕДОПЫТ”, служащая для быстрого поиска текстовых фрагментов документов в больших объемах информации. В качестве запроса могут использоваться фразы на естественном языке;

  6. в Московском специализированном Центре новых информационных технологий на базе Московской медицинской академии им. И.М. Сеченова. Разработана система “КЛЮЧИ ОТ ТЕКСТА” – для смыслового поиска и индексирования текстовой информации в электронных библиотеках;

  7. в компании "Yandex". Предлагается набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского и английского языков. Средства предназначены для работы с большими объемами русских или английских текстов всех типов в виде файлов различных форматов, полей баз данных и страничек Интернета.

Подробные сведения об этих и других распространяемых программных продуктах содержатся в каталоге, составленном С.В. Логичевым [http://davidsonyuliya.boom.ru/catalog.htm]. Каталог включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете.

В настоящее время в стране сложилась ситуация, когда системы автоматизации библиотек, как правило, не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с системами автоматизации библиотек, при этом стоимости тех и других как коммерческих продуктов сопоставимы. Это делает целесообразным расширение возможностей систем автоматизации библиотек за счет включения в них средств смыслового анализа текстов.

Исходя из этого, в данном диссертационном исследовании была сформулирована цель работы: исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки электронных фондов библиотек.

В соответствии с этой целью решались следующие задачи:

  1. разработка и обоснование методики создания полнотекстовых баз данных;

  2. разработка и обоснование общей методики смыслового анализа текстов;

  3. разработка и программная реализация автоматизированной системы эвристического анализа числовых данных;

  4. разработка и программная реализация алгоритмов классификации текстов;

  5. адаптация автоматизированной системы смыслового анализа текстов для работы с электронными фондами библиотеки в среде системы автоматизации библиотек ИРБИС.

Данная работа является синтезом нескольких независимых исследований, которые проводились автором. Прежде всего автором, совместно с П.П. Макагоновым, была разработана система визуального эвристического анализа числовых данных, названная Visual HCA [1]. Данная система адресована эксперту, которому необходимо решить слабоформализованную задачу классификации на основе создания и структуризации числовой модели. Автором были исследованы потребности библиотек, и как разработчик систем автоматизации автор поставил цель прикладного применения Visual HCA для создания системы полнотекстового анализа электронных фондов библиотек. Совместно с П.П. Макагоновым были развиты алгоритмы смыслового анализа текстов на основе идеи естественно-тематической классификации проблемно-ориентированных текстов [2,4,6-9]. Автор является одним из разработчиков системы автоматизации библиотек ИРБИС, которая создана в ГПНТБ России коллективом специалистов под руководством Я.Л. Шрайберга. В соавторстве с A.И. Бродовским, H.А. Мазовым и O.Л. Жижимовым были разработаны формат хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64, позволяющие создавать базы данных большого объема [12]. Завершающим этапом работы явилось создание системы смыслового анализа текстов и интеграция ее в систему автоматизации библиотек ИРБИС [11,13].
  1   2

Добавить документ в свой блог или на сайт

Похожие:

Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconИнструкция по подготовке и передаче перечня электронных ресурсов...
«О создании Республиканской межвузовской электронной библиотеки», вузы должны создавать свои полнотекстовые базы электронных библиотек...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки icon“Информационные системы в экономике”
Система "Клиент-Банк" автоматизированная компьютерная система электронных расчетов через модемную связь
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки icon"Автоматизированная система поддержки принятия решений по оценке...
...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconА. С. Пушкин «О сколько нам открытий чудных…»
Сегодня интерес к чтению, посещению библиотеки сократился в несколько раз. Причины очевидны: распространение интернета, появление...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconV. G. Abashin автоматизированная система обработки биометрических...
Книги, периодика, графика, справочная и техническая литература для учащихся средних и высших учебных заведений
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconНазвание доклада/проекта
Автоматизированная система контроля температурных полей при горячей обработке давлением
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки icon5000 от 12. 12. 2012 г. Стандарт качества муниципальной работы «Формирование...
Обеспечение соответствия состава библиотечного фонда задачам библиотеки и потребностям читателей
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconРеферат Дипломный проект на тему «Автоматизированная система управления...
Дипломный проект на тему «Автоматизированная система управления санаторным комплексом «Валуево». Подсистема «Диетпитание» состоит...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconПлан работы Трёхбалтаевской сельской библиотеки на 2012 год Основные задачи работы библиотеки
Доставка документов в оригиналах и копиях по запросам пользователей из фондов других библиотек
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки icon«Системы распознавания текста»
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconУрок 6 10 класс Тема: «Системы распознавания текста»
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconПояснительная записка Версия 4 от “22” октября 2005 года
Архитектура программного обеспечения, электронное государство, стандартизация, профиль стандартов, стандартизованные спецификации,...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconПояснительная записка к дипломной работе на тему: «Автоматизированная...
«Автоматизированная система ввода плана эвакуации для разработки паспортов безопасности учебных заведений рф»
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconВопросы к Государственному экзамену
Использование программ обработки текстов, компьютерной графики, макетирования и верстки при составлении рабочих документов, презентационных...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconРеферат Тема дипломной работы: «Основные производственные фонды и...
Основные фонды, оценка основных фондов, классификация основных фондов, амортизация основных фондов, износ основных фондов, коэфициент...
Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки iconБюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная...
Получен из типографии очередной научно-технический бюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная система...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск