2.9 Разработка комплекса грид-сервисов для высокопроизводительной массовой обработки медико-биологических данных Исполнитель – ИХФ РАН, г. Москва. См. приложение – отчет за 2 этап по части 10 Технического задания к контракту СГ-2/07 от 16.07.2007 г. Содержание этапа 2.
Выбор направления исследований.
Сравнительный анализ современных методов и технологий массовой обработки медико-биологических данных.
Выполнен обзор и анализ современных методов организации хранения и обработки больших объемов медико-биологических данных, методов и средств доступа к ним и представления данных пользователям. В настоящее время информационные ресурсы для хранения больших объемов медико-биологических данных построены в большинстве случаев по технологии клиент-сервер с использованием корпоративных СУБД Oracle, Microsoft SQL Server, DB2 или аналогичных по классу. При этом существующие клинические базы данных отличаются чрезвычайным разнообразием используемых схем данных. Кроме того, в медико-биологических приложениях огромную роль играют не только первичные данные, но и многочисленные производные от них данные (метаданные), фиксирующие результат обработки первичных данных экспертами. Огромное количество таких данных хранится в виде содержимого web-страниц, в том числе в виде журнальных публикаций, индексацию и аннотирование которых ведет MedLine (PubMed). В связи с этим в рамках проекта СКИФ-ГРИД для организации хранения данных и доступа к ним предлагается использовать концепцию Пространства Данных (ПД), предполагающую интеграцию слабо-связанных данных, хранящихся в разнородных распределенных информационных ресурсах, за счет использования развитых многоуровневых метаданных, формализующих и фиксирующих семантические связи межлу данными и метаданными.
Методы высокопроизводительной обработки медико-биологических данных используются в основном в задачах фармакологии (молекулярная динамика, докинг, геномный анализ) и в областях медицины, активно использующих изображения (радиология, УЗИ, МРТ и т.п). Грид-технологии активно используются при разработке средств геномного анализа и протеомики (алгоритм BLAST и его вариации, филогенетический анализ, обработка результатов спектрометрии), средств обработки рентгеновских, ультразвуковых (и других изображений) и распознавания в интересах методов неинвазивной диагностики, а также при создании средств моделирования биологических объектов большой размерности, например, для расчета моделей сосудистой системы и гемодинамики для прогнозирования результатов реваскуляризации.
С точки зрения массовой обработки медико-биологических данных наибольший интерес представляет возможность распределенного хранения и обработки результатов рентгеновских и ультразвуковых исследований, накапливаемых при скрининге населения, например, для ранней диагностики туберкулеза или рака молочной железы. Последней задаче посвящен, например, европейский проект Mammogrid, в результате которого создана инфраструктура и сервисные средства для распределенного хранения маммограмм, доступа к ним для членов соответствующей Виртуальной организации, а также возможность использования при необходимости вычислительных ресурсов сети Mammogrid для обработки снимков.
Задачи распределенного хранения, поиска и обработки рентгеновских и ультразвуковых изображений, полученные при скрининге населения для целей ранней диагностики рака молочной железы целесообразно выбрать в качестве основных при реализации комплекса грид-сервисов для высокопроизводительной массовой обработки медико-биологических данных в рамках проекта СКИФ-ГРИД, как в силу социальной значимости проблемы, так и потому, что эта задача позволяет комплексно использовать преимущества технологии грид. Эти преимущества состоят в сочетании возможности распределенного хранения данных, наличии встроенных базовых средств обеспечения информационной безопасности и возможности использования мощных вычислительных ресурсов грид-сети как при углубленном анализе отдельных результатов, так и при проведении эпидемиологических исследований. 2. Исследование и формирование набора функциональностей прикладных и системных грид-сервисов, необходимых для массовой обработки медико-биологических данных. Технические предложения по номенклатуре функциональностей грид-сервисов. Для организации хранения больших объемов медико-биологических данных предложено использовать технологию Open Grid Service Architecture, позволяющую реализовать распределенное хранение данных в разнородных информационных ресурсах в соответствии с концепцией Пространства Данных (Data Space). Для связывания элементов Пространства Данных предложено использовать семантические характеристики данных, формализуемые с помощью XML-описаний (метамоделей). Метаданные, формируемые сервисами поиска и первичного анализа данных на основе метамоделей в виде Информационных Объектов, хранятся в распределенном Репозитории Метаописаний. Метаданные могут выступать как данные для метаданных более высого уровня, в том числе создаваемых пользователем в виде онтологий. Онтологии также используются пользователями для формализации семантических связей между данными и метаданными, их визульаного и формального представления, а также в качестве формализованного корпоративного знания в рамках Виртуальной Организации. Отметим, что первичные данные в большинстве случаев хранятся в месте их создания и права доступа к ним в рамках Виртуальной организации определяет владелец локального ресурса, что обеспечивает его права и его ответственность как с точки зрения авторских прав на данные, так и с точки зрения доступа к «чувствительным» медицинским данным.
Обработка медико-биологических даннх большой размерности выполняется по различным алгоритмам в различных областях медицины и биологии. Для фармакологии основное значение имеют методы молекулярной динамики и геномного анализа. В областях медицины, связанных с анализом изображений (радиология, УЗИ), в том числе в маммологии, наибольшее распространение имеют методы фильтрации и распознавания,. К сожалению, какого-либо метода или алгоритма, установивегося как «золотой стандарт», для этих методов в настоящее время не существует. Поэтому на данном этапе целесообразно предложить для реализации в рамках проекта СКИФ-ГРИД набор сервисов, позволяющий пользователям удобным способом запускать собственные программные средства для обработки на вычислительных ресурсах СКИФ-ГРИД любых данных, полученных из информационных ресурсов. Такие сервисы должны также обеспечивать поддержку информационной безопасности не только при доступе к данным, но и при доступе к вычислительным ресурсам. Кроме того, указанные сервисы должны дать пользователю возможность контролировать ход обработки путем информирования его в заданных точках вычислительного процесса.
Для реализации вышеперечисленных функциональностей в рамках дальнейшей работы целесообразно разработать и реализовать в рамках проекта СКИФ-ГРИД следующий набор функциональностей сервисов:
сервисы поддержки Репозитория метаописаний, реализованного в виде распределенной XML базы данных;
сервисы семантической аггрегации данных и формирования метаданных для последующего хранения в Репозитории метаописаний;
сервисы семантического поиска данных по метаданным, хранимым в Репозитории;
сервисы формирования и представления тематических онтологий, позволяющие оперировать сложными метаданными;
сервисы передачи данных по запросу пользователя, в том числе для обработки на высокопроизводительных ресурса СКИФ-ГРИД;
сервисы управления запуском пользовательских программ обработки данных, в том числе с использованием механизма информирования пользователя в контрольных точках процесса;
сервисы визуализации метаданных и онтологий;
сервисы визуализации изображений (в формате DICOM), используемых при диагностике рака молочной железы.
Перечисленные сервисы должны быть разработаны как кросс-платформенные, либо в виде Java-сервисов, либо в виде достаточного набора платформо-зависимых программных средств.
|