Скачать 260.87 Kb.
|
На правах рукописиСбойчаков Константин ОлеговичАвтоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки 05.25.05 - информационные системы и процессы, правовые аспекты информатики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук МОСКВА-2003 Работа выполнена на кафедре информационных технологий и электронных библиотек Московского государственного университета культуры и искусств. Научный руководитель: кандидат технических наук А.О. Адамьянц Научный консультант: доктор физико-математических наук, профессор П.П. Макагонов Официальные оппоненты: доктор технических наук, профессор А.Н. Павлов кандидат технических наук Г.З. Залаев Ведущая организация: Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук Защита состоится 28 января 2004 года в 11 часов на заседании диссертационного совета Д 210.010.01 при Московском государственном университете культуры и искусств по адресу: 14140, Московская область, г. Химки – 6, ул. Библиотечная 7, ауд. 218 (новый корпус). С диссертацией можно ознакомиться в научной библиотеке Московского государственного института культуры и искусств. Автореферат разослан “ ” 2003 г. Ученый секретарь диссертационного совета В.Т. Клапиюк ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. В последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов. В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п. Данная работа исследует проблему и предлагает научно-обоснованную методику создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде. В данной диссертации предполагается рассматривать полнотекстовые базы данных, создаваемые библиотекой, как часть электронного фонда библиотеки, а электронный фонд, по существу, есть часть общего фонда библиотеки со всеми приданными ему характеристиками. В общедоступных библиотеках такой массив текстов документов обычно возникает как результат сканирования текстов по частным заказам пользователей. С возрастанием объемов накопленной информации возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту – возможность выделять подклассы текстов по заданной тематике (в дальнейшем - естественно-тематические группы текстов). В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Yahoo, Yandex) поддерживают алгоритмы поиска текстов “схожих” с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это “Следопыт”, ”ТекстАналист”) позволяют проводить автоматическую классификацию и реферирование текстов. Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект IST, 1998-2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система “Excalibur RetrievalWare” производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power. Создание систем смыслового анализа текстов до настоящего времени происходит с минимальным участием лингвистов. Это обусловлено использованием для решения этой задачи в основном статистических методов. Области, в которых наиболее сильны позиции профессиональных лингвистов, это в первую очередь лексико-грамматический и синтаксический анализ предложения, нахождение имен собственных в тексте и автоматическое реферирование. Научный и практический опыт лингвистов получил широкое применение в системах автоматического перевода и контекстного анализа, при создании тезаурусов и словарей, и т.д. Наиболее известные лингвистические программные продукты на рынке России:
Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений, автоматическая классификация текстов, расчет релевантности текстов поисковому запросу - можно выделить в отдельный класс, к которому относится и система, разработанная автором данной диссертации. В России работы по смысловому анализу текстов только начинают проводиться, главным образом они ведутся:
Подробные сведения об этих и других распространяемых программных продуктах содержатся в каталоге, составленном С.В. Логичевым [http://davidsonyuliya.boom.ru/catalog.htm]. Каталог включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете. В настоящее время в стране сложилась ситуация, когда системы автоматизации библиотек, как правило, не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с системами автоматизации библиотек, при этом стоимости тех и других как коммерческих продуктов сопоставимы. Это делает целесообразным расширение возможностей систем автоматизации библиотек за счет включения в них средств смыслового анализа текстов. Исходя из этого, в данном диссертационном исследовании была сформулирована цель работы: исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки электронных фондов библиотек. В соответствии с этой целью решались следующие задачи:
Данная работа является синтезом нескольких независимых исследований, которые проводились автором. Прежде всего автором, совместно с П.П. Макагоновым, была разработана система визуального эвристического анализа числовых данных, названная Visual HCA [1]. Данная система адресована эксперту, которому необходимо решить слабоформализованную задачу классификации на основе создания и структуризации числовой модели. Автором были исследованы потребности библиотек, и как разработчик систем автоматизации автор поставил цель прикладного применения Visual HCA для создания системы полнотекстового анализа электронных фондов библиотек. Совместно с П.П. Макагоновым были развиты алгоритмы смыслового анализа текстов на основе идеи естественно-тематической классификации проблемно-ориентированных текстов [2,4,6-9]. Автор является одним из разработчиков системы автоматизации библиотек ИРБИС, которая создана в ГПНТБ России коллективом специалистов под руководством Я.Л. Шрайберга. В соавторстве с A.И. Бродовским, H.А. Мазовым и O.Л. Жижимовым были разработаны формат хранения данных и полнофункциональная библиотека доступа к базам данных ИРБИС64, позволяющие создавать базы данных большого объема [12]. Завершающим этапом работы явилось создание системы смыслового анализа текстов и интеграция ее в систему автоматизации библиотек ИРБИС [11,13]. |
Инструкция по подготовке и передаче перечня электронных ресурсов... «О создании Республиканской межвузовской электронной библиотеки», вузы должны создавать свои полнотекстовые базы электронных библиотек... | “Информационные системы в экономике” Система "Клиент-Банк" автоматизированная компьютерная система электронных расчетов через модемную связь | ||
"Автоматизированная система поддержки принятия решений по оценке... ... | А. С. Пушкин «О сколько нам открытий чудных…» Сегодня интерес к чтению, посещению библиотеки сократился в несколько раз. Причины очевидны: распространение интернета, появление... | ||
V. G. Abashin автоматизированная система обработки биометрических... Книги, периодика, графика, справочная и техническая литература для учащихся средних и высших учебных заведений | Название доклада/проекта Автоматизированная система контроля температурных полей при горячей обработке давлением | ||
5000 от 12. 12. 2012 г. Стандарт качества муниципальной работы «Формирование... Обеспечение соответствия состава библиотечного фонда задачам библиотеки и потребностям читателей | Реферат Дипломный проект на тему «Автоматизированная система управления... Дипломный проект на тему «Автоматизированная система управления санаторным комплексом «Валуево». Подсистема «Диетпитание» состоит... | ||
План работы Трёхбалтаевской сельской библиотеки на 2012 год Основные задачи работы библиотеки Доставка документов в оригиналах и копиях по запросам пользователей из фондов других библиотек | «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий... | ||
Урок 6 10 класс Тема: «Системы распознавания текста» При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий... | Пояснительная записка Версия 4 от “22” октября 2005 года Архитектура программного обеспечения, электронное государство, стандартизация, профиль стандартов, стандартизованные спецификации,... | ||
Пояснительная записка к дипломной работе на тему: «Автоматизированная... «Автоматизированная система ввода плана эвакуации для разработки паспортов безопасности учебных заведений рф» | Вопросы к Государственному экзамену Использование программ обработки текстов, компьютерной графики, макетирования и верстки при составлении рабочих документов, презентационных... | ||
Реферат Тема дипломной работы: «Основные производственные фонды и... Основные фонды, оценка основных фондов, классификация основных фондов, амортизация основных фондов, износ основных фондов, коэфициент... | Бюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная... Получен из типографии очередной научно-технический бюллетень серии «Экология, экономика, безопасность» №30 "Автоматизированная система... |