1.1.Цель работы Целью данной работы является разработка методов, позволяющих использовать семантические технологии для организации структуры хранения и доступа к информационным ресурсам в корпоративных портальных системах. В работе обсуждаются основные подходы к построению порталов знаний на основе технологий Semantic Web.
Практическая часть работы заключается в реализации модуля рубрикации информационных ресурсов Системы коллективного использования информационных ресурсов Департамента исследований и информации Банка России на основе применения выработанных методов. Предлагаемая реализация оценивается с точки зрения эффективности ее применения для автоматизации основных видов деятельности ДИИ.
1.2.Актуальность темы Совершенствование существующих и разработка новых подходов к сбору, хранению, обработке и распространению информации является неотъемлемой частью процесса развития информационных технологий и информационных систем. Необходимость такого совершенствования во многом обусловлена непрерывным ростом объема информационных ресурсов и их доступности, что ввиду их слабой структурированности сильно осложняет работу пользователей с ними.
В последнее время все более популярным решением данной проблемы в различных организациях становится использование корпоративного информационного портала (КИП). Однако сейчас нельзя ни обратить внимание на тот факт, что функции, предоставляемые корпоративными порталами, являются необходимыми, но не достаточными для эффективной работы с корпоративной информацией - прежде всего для решения задач ее обнаружения.
Не смотря на то, что Web-интерфейсы современных корпоративных порталов обеспечивают единый и структурированный доступ к гетерогенной информации, они, прежде всего, направлены на предоставление средств управления доступом, изменения и актуализации хранящейся информации, но не ее структуризации и систематизации.
Полнотекстовый поиск по содержимому, как бы хорошо он не был реализован, не способен обеспечить пользователю инструмент эффективного поиска произвольной информации. В большинстве случаев пользователю либо не удается подобрать нужные ключевые слова, либо возвращается слишком большое количество результатов поиска. Как показывает практика, функции семантического поиска и рубрикации в пакетных портальных решениях присутствуют исключительно «для галочки» и не могут применяться в реальных промышленных условиях.
Таким образом, функции корпоративных портальных систем, построенных на современных портальных технологиях, не могут являться достаточными при решении задач обеспечения средств эффективного обнаружения информации. В частности, ввиду отсутствия в них средств формального семантического описания, возникают серьезные проблемы при использовании больших массивов информации.
Одним из подходов к решению данной проблемы является использование семантических технологий, призванных обеспечить обработку информации в корпоративных порталах с учетом ее семантики. Применение в корпоративных порталах новых подходов и методов к обработке информации имеет высокую практическую значимость, а исследования подходов и разработка методов построения структуры хранения и доступа к корпоративным порталам на основе семантических технологий являются актуальными.
1.3.Научная новизна и практическая значимость Научная новизна результатов работы заключается в разработанном методе семантического описания информационных ресурсов портала, использующий предложенный автором подход на основе модели Topic Maps.
Практическая значимость работы выражается в программной реализации разработанного автором подхода при разработке модуля тематической рубрикаци системы СКИИР, а так же в возможности использования разработанного семантического подхода при построении корпоративных порталах знаний.
Обзор технологий Semantic Web Основная идея Semantic Web заключается в том, чтобы сделать информацию, передаваемую в Web, более формализованной и удобной для машинного восприятия, в частности, для того чтобы ее можно было идентифицировать и классифицировать. По мнению авторов технологии Semantic Web, это может достигаться посредством введения метаданных, которые должны сопровождать любую информацию и рассказывать о ее происхождении, формате и многом другом, что должно радикальным способом облегчить поиск информации в Web и ее обработку [9].
Основываясь на открытых стандартах, технологии Semantic Web позволяют описывать и выделять смысловую информацию (семантику) из произвольных данных, в частности содержания документов или кода приложений. Говоря, что машина понимает семантику документа, подразумевается не только интерпретация набора символов, содержащихся в документе, но и то, что машина понимает смысл документа, то есть значение документа в целом. Следующие технологии являются основными в составе Semantic Web.
Глобальная схема имен (URI);
Модель описания данных (RDF);
Язык описания словарей (RDFS);
Средства описания связей между объектами данных (онтологии, и язык их описания OWL).
Ключевым элементом технологий Semantic Web является уникальная система идентификации объектов. URI (Uniform Resource Identifier) – это идентификатор какого-либо объекта (ресурса) в глобальной сети. Любой элемент, схема или модель данных семантической сети должны иметь собственный уникальный адрес (URI). Сейчас используются два типа идентификаторов.
Универсальный указатель ресурсов (Uniform Resource Locator, сокр. URL) - это URI, который, помимо идентификации ресурса, указывает на способ обращения с ресурсом путем описания способа доступа к нему или его положения в сети.
Универсальное имя ресурса (Uniform Resource Name, сокр. URN) - это URI, который идентифицирует ресурс с помощью имени в определенном пространстве имен. Это позволяет ссылаться на ресурсе без использования информации об его расположении.
Второй базовый компонент Semantic Web - это модель данных Resource Description Framework (RDF), которая позволяет объединить информацию из произвольных источников. Формат RDF наиболее полезен в обеспечении совместного использования информации, смысл которой может одинаково интерпретироваться различными программными агентами. Специфика модели данных RDF состоит том, что ресурсы и свойства идентифицируются с помощью глобальных идентификаторов (URI). RDF описывает предметную область в терминах ресурсов, свойств ресурсов и значений свойств. RDF-данные можно расценивать как совокупность утверждений – субъект, предикат и объект утверждения, и представлять в виде направленного графа, образуемого такими утверждениями.
Следующий уровень в пирамиде технологий Semantic Web занимает RDF Schema – язык описания словарей RDF-терминов. RDFS служит фундаментом для более богатых языков описания онтологий предметной области, которые позволяют адаптировать к Web системы логики и обеспечить семантическую обработку данных. Схема RDF представляет собой систему типов для Semantic Web и позволяет определить классы ресурсов и свойства как элементы словаря, в частности задать, какие свойства с какими классами могут быть использованы.
|