2.7 Анализ возможности построения распределенных инфраструктур на основе архитектурного стиля REST Как уже отмечалось, в настоящее время традиционная реализация для сервисов для распределенных компьютерных инфраструктур – это WSRF-сервис (см. разд. ). Такие веб-сервисы используют протокол HTTP в качестве средства доставки сообщений других вложенных протоколов – SOAP и семейства WS-*. Однако, несмотря на распространенность, WSRF-сервисы имеют существенный недостаток – большую сложность реализации и излишние объемы информации, участвующей в обмене сообщениями между сервисами. Эта сложность часто бывает скрыта сторонними инструментами, позволяющими автоматически генерировать программный код для реализации WSRF-сервисов. Тем не менее, эта сложность внутренней реализации усложняет широкое использование таких сервисов третьими лицами, а также из сред программирования, не имеющих соответствующих инструментов автоматической генерации кода. Даже одна из наиболее полных реализаций WSRF, разработанная в Globus Toolkit версии 4 (см. разд. ), не всегда полностью следует требованиям спецификации.
RESTful-веб-сервисы используют сам протокол HTTP как основу для взаимодействия и не используют дополнительных надстроенных протоколов. Поэтому, в частности, реализация клиентов к таким веб-сервисам является практически тривиальной. Как указано выше, на данный момент нет единых стандартов на RESTful-сервисы, есть только распространенные практики. В настоящем аналитическом обзоре показана возможность расширения стандартных методов построения RESTful-веб-сервисов с целью обеспечения взаимодействия с ресурсами, имеющими цикл существования, в частности, управления временем жизни таких ресурсов. Это необходимо для реализации полноценных распределенных компьютерных инфраструктур, так как одной из их характерных особенностей является ограниченный цикл существования ресурса.
2.7.1 Особенности использования архитектурного стиля REST для организации удаленного доступа к суперкомпьютерам для решения задач моделирования наноматериалов Специализированная проблемно-ориентированная распределенная инфраструктура в области нанонаук в первую очередь должна обеспечить унифицированный, прозрачный безопасный и авторизованный доступ к высокопроизводительным вычислительным ресурсам (суперкомпьютерам) для решения задач моделирования наноматериалов.
Создание такой инфраструктуры подразумевает распределение вычислительных ресурсов по территориально разделенным сайтам, на которых установлено специализированное программное обеспечение для того, чтобы распределять задания по сайтам и принимать их там, возвращать результаты пользователю, контролировать права пользователей на доступ к тем или иным ресурсам, осуществлять мониторинг ресурсов, и так далее. Общедоступные ресурсы на основе сайта могут включать вычислительные узлы и/или узлы хранения и передачи данных, собственно данные, прикладное программное обеспечение.
Для совместимости с другими распределенными системами весьма важно, чтобы программные компоненты инфраструктуры создавались с использованием международных стандартов OASIS [2-39], W3C [2-40] и DMTF [2-41], а также рекомендаций OGF [2-42]. Доступ пользователей к сервисам инфраструктуры должен осуществляться посредством специализированных клиентских программ и/или веб-порталов по сети Интернет. Выполнение базовых операций должны обеспечивать авторизованный безопасный доступ к ресурсам инфраструктуры на основе технологии открытых ключей стандарта X509.
В общем виде специализированную инфраструктуру можно представить как систему, имеющую три базовых слоя:
слой общих RESTfull сервисов, отвечающих за работу инфраструктуры в целом;
слой суперкомпьютерных центров с сервисами, обеспечивающими доступ к этим высокопроизводительным ресурсам;
слой интерфейсов пользователей (ИП), связанный с доступом к инфраструктуре пользователей, администраторов и менеджеров;
Сервисы инфраструктуры должны позволять распределять вычислительные задания по ресурсным центрам ННС и обрабатывать их там, возвращать результаты пользователю, контролировать права пользователей на доступ к тем или иным ресурсам, осуществлять мониторинг ресурсов, и также предоставляют ряд других услуг.
Сервисы в суперкомпьютерных центрах обеспечивают удаленный доступ к локальным ресурсам. Эти ресурсы включают вычислительные узлы, узлы хранения и передачи данных, собственно данные, а также прикладное программное обеспечение.
Пользовательские интерфейсы могут быть трех типов:
интерфейс командной строки;
Веб-интерфейс;
проблемно-ориентированные интерфейсы.
Интерфейс командной строки предназначен для продвинутых пользователей. С помощью консольных команд такие пользователи могут создавать набор своих скриптов для автоматизации запуска задач. Веб-интерфейс предназначен для создания и запуска заданий в ГридННС с использованием браузера. Интерфейс будет поддерживать следующие основные функции:
работа с сертификатами пользователя;
графический интерфейс по созданию задания;
работа с файлами пользователя и результатами вычислений;
контроль прохождения задания и его отдельных задач.
Весьма важным является возможность создания проблемно-ориентированных интерфейсов, которые обеспечат дружественный для пользователей, эффективный и безопасный процесс подготовки и выполнения в рамках разрабатываемой инфраструктуры заданий по моделированию свойств новых наноматериалов и наноструктур, а также заданий в области наноинженерии, с использованием лицензионных, а также свободно-распространяемых прикладных программ и пакетов, установленных в суперкомпьютерных центрах.
Задания пользователей могут оказаться композитными объектами, которые состоят из совокупности задач, порядок выполнения которых описывается с помощью направленного ациклического графа (НАГ), который описывает логику выполнения. Причем важную роль в процессе выполнения композитных заданий по моделированию свойств новых наноматериалов и наноструктур могут играть дополнительные требования, которым должны удовлетворять ресурсы со стороны запускаемых задач. Требования могут иметь различный характер. Это может быть, например, заказ определенного количества ЦПУ суперкомпьютера, оперативной памяти, времени выполнения. Могут быть и более специфические требования к наличию предустановленного прикладного ПО, библиотек.
При моделировании свойств новых наноматериалов и наноструктур наиболее ресурсоемкой частью являются собственно суперкомпьютерные вычисления. Поэтому с точки зрения этих задач управление данными является важной, но не определяющей стороной инфраструктуры. В частности, не предъявляется требований по обеспечению средств создания множественных реплик наборов данных и других средств, ориентированных на обработку большого объема данных.
Управление данными включает в себя передачу данных на вычислительный ресурс и получение результатов вычислений. При этом под данными мы понимаем всю совокупность данных, которая необходима для выполнения задачи, включая программу. Таким образом в момент запуска задачи на ресурсе должны быть все необходимые компоненты. Для этого в описании задачи указывается местоположение всех входных файлов. Им может быть локальная файловая система вычислительного ресурса и/или GridFTP сервер. Каждый файл описывается парой ключ-значение.
Наиболее адекватной моделью аутентификации в рамках инфраструктуры представляется модель на основе PKI с использованием цифровых сертификатов стандарта X.509 [2-43].
2.7.2 Особенности использования архитектурного стиля REST для организации удаленного доступа к данным в области наук о Земле Текст МНЖ
|