Глава 1 Обзор литературы 1.1 Банки и базы данных первичных аминокислотных последовательностей Аминокислотные последовательности получают прямым пептидным си-квенсом или путем трансляции открытых рамок считывания из банков данных нуклеотидных последовательностей. Все последовательности ДНК, для кото-рых известна кодирующая часть, автоматически после попадания в банк дан-ных транслируются в аминокислотные последовательности, которые депони-руются в специальных банках данных. Как и для последовательностей ДНК, для аминокислотных последовательностей создаются подробные аннотации, описывающие пептид, а также содержащие ссылки на исходную нуклеотид-ную последовательность, библиографические данные и пр. Банки данных ами-нокислотных последовательностей, так же как и нуклеотидных, интегрирова-ны со множеством других баз данных, т.е. содержат перекрестные ссылки [5].
Аминокислотные последовательности содержатся в нижеперечисленных базах данных.
SWISS-PROT - база данных, содержащая аннотированные аминокис-лотные последовательности, транслированные с нуклеотидных последователь-ностей EMBL; адаптированные последовательности из PIR; а также последо-вательности, опубликованные в литературе и присланные непосредственно са-мими авторами. Последовательность помещается в SWISS-PROT только в слу-чае, если имеется достаточно информативное описание кодируемого ею пеп-тида. Содержит высококачественные неизбыточные аннотации, перекрестные ссылки на другие родственные базы данных (EMBL, Prosite, PDB). Каждая ан-нотация содержит описание функции белка, его доменной структуры, особен-ностей пострансляционной модификации, различные варианты. Имеется неан-нотированное приложение (TREMBL).
TREMBL (TRanslated from EMBL) – база данных, в которую помещают-ся последовательности, кодирующие недостаточно описанные пептиды, для того чтобы обеспечить доступ к последовательности до тех пор, пока не нако-пится достаточно информации для перевода этой последовательности в SWISS-PROT.
База данных PIR (International Protein Sequence Database) содержит последовательности, транслированные из GenBank или полученные прямым пеп-тидным сиквенсом.
PRF/SEQDB (Protein Research Foundation peptide/Protein SEQuence DataBase) – база данных, также содержащая последовательности белков и пеп-тидов, включая транслированные из нуклеотидных последовательностей.
Каждая из вышеперечисленных баз данных имеет свой WWW интерфейс для доступа. Это Entrez или PubMed для GenBank, Maestro для GSDB, SRS для EMBL, TREMBL, SWISS-PROT и т.д. Все интерфейсы интуитивно понятны, тем не менее, рекомендуется изучить инструкции по использованию, которые имеются для каждой из перечисленных систем [8].
1.2 Базы данных пространственной структуры макромолекул Информация о пространственной организации белков и ДНК является очень важной для понимания механизмов работы макромолекул и их биологи-ческой функции. Третичную структуру макромолекул можно определить экс-периментальными методами (кристаллография, ЯМР). Эти методы являются чрезвычайно трудоемкими и требуют больших затрат времени, но позволяют получить достоверные сведения о пространственной организации молекул.
В настоящее время большие усилия прилагаются для разработки методов предсказания третичной структуры молекул на основе известной первичной структуры. Тем не менее, экспериментальные методы пока остаются единст-венно достоверными для определения третичной структуры макромолекул.
Для хранения и систематизации данных о третичной структуре молекул, полученных экспериментально, были созданы специальные банки и базы дан-ных, описанные ниже.
PDB (Protein DataBank) - коллекция экспериментально определенных 3D-структур биологических макромолекул. Раньше содержала и теоретические модели, но начиная с июля 2002 года в основном депозитарии хранятся только экспериментально определенные структуры (рентгеноструктурным, ядерно-агнитнорезонансным и др. методами). Теоретические структуры выделены в отдельную подбазу, которая доступна для перекачки по FTP.
База данных MMDB (Molecular Modelling DataBase) содержит экспери-ментально определенные пространственные структуры белков. Большинство 3D-структур получено путем рентгеноструктурной кристаллографии и ЯМР-спектроскопии, они дают информацию о биологической функции, механизмах, связанных с этой функцией, эволюционной истории и взаимосвязях между макромолекулами. Является подмножеством PDB, которая содержит еще и теоретические модели. Все структуры этой базы имеют первичные структуры в белковой базе данных NCBI.
NDB (Nucleic acids DataBase) - база данных, которая содержит простран-ственные структуры нуклеиновых кислот. В качестве основной части базы вы-ступает Atlas of Nucleic Acid Containing Structure, который содержит структу-рированный каталог всех возможных структурных форм двойных спиралей ДНК, различных форм РНК, графические изображения. Может использоваться в качестве учебного пособия.
Информация в этих банках данных хранится в виде файлов, содержащих атомные координаты молекул, сведения о первичной и вторичной структуре, данные ЯМР и кристаллографии, а так же библиографические ссылки [6].
Для визуализации собственно структуры молекул существует несколько специальных программм: Cn3D, RasMol, Chime, Kinemage, которые требуют установки на локальном компьютере.
Для образовательных целей лучше всего подходит программа Chime, ко-торая создана на основе RasMol и представляет собой plug-in, что позволяет просматривать структуры молекул непосредственно в окне браузера.
Также при помощи Chime можно проигрывать скрипты (в данном случае - это специальные программы для динамического представления данных), на-писанные для RasMol [7].
|