Отчет о выполнении поисковых научно-исследовательских работ по теме





НазваниеОтчет о выполнении поисковых научно-исследовательских работ по теме
страница5/9
Дата публикации07.04.2015
Размер0.94 Mb.
ТипОтчет
100-bal.ru > Биология > Отчет
1   2   3   4   5   6   7   8   9

Статистическая генетика


Существует множество методов и программ, позволяющих выявить влияние генетических вариантов на интересующий признак, будь то риск заболевания, чувствительность к лекарствам или биологический параметр. В этом модуле будет сказано несколько слов об этих методах и программах и приведено два примера.
1.2.1 Статистики для характеристики НС

Рассмотрим два локуса, каждый из которых может содержать два аллеля: первый локус — аллели A и a, второй локус — аллели B и b. Частоты этих аллелей обозначим через pA, pa, pB и pb. Также введем числа pAB, pAb, paB и pab — частоты соответствующих гаплотипов.

Если локусы и аллели являются независимыми друг от друга, то [6] справедливы формулы (Севастьянов Б.А., 1982):

pAB = pApB, pAb = pApb, paB = papB, pab = papb.

Интересно, что модуль разности наблюдаемой частоты (pAB, pAb, paB, pab) и частоты, ожидаемой в предположении независимости (соответственно, pApB, pApb, papB, papb), для каждой пары аллелей один и тот же и равняется |pABpab-pAbpaB|.

Если данная величина равняется нулю, то сцепление является равновесным, в противном случае — неравновесным. Однако величина

D = pABpab-pAbpaB

как характеристика степени «неравновесности» сцепления обладает следующим недостатком. Если частота аллеля близка к 1 (соответственно, частота другого аллеля близка к нулю), то величина D будет близка к нулю независимо от того, является ли сцепление равновесным или нет. Максимальное значение величина D будет принимать, когда частоты всех аллелей близки к 0,5. Различными авторами предложены другие величины, свободные от этого недостатка.

1.2.1.1 Статистика D′ Левонтина

Введем обозначение Dmax:

Dmax =

Левонтин предложил в качестве характеристики НС величину (Lewontin R., 1989):

.

Недостаток данной величины заключается в том, что в маленьких выборках она принимает неоправданно высокие значения.

1.2.1.2 Коэффициент детерминации

Величина  называется коэффициентом корреляции, а ее квадрат коэффициентом детерминации (Hedrick P.W., Kumar S., 2001).


1.2.1.3 Величина LOD

Величина LOD (сокращение от logarithm of odds) часто применятся для анализа сцепления. Она получается при помощи сравнения вероятности получения тестовых данных в предположении, что два локуса действительно связаны и вероятности получения тестовых данных в предположении независимости локусов. Если величина положительна, то сцепление более вероятно, если отрицательна — менее вероятна.

Тест подробно описан в работе Штрахана Т. и Рида А.П. (Strachan T., Read A.P., 1999). Он состоит из следующих шагов:

1) получение данных о генотипе ряда родителей и их потомства;

2) оценка уровня рекомбинации методом максимального правдоподобия (Козлов М.В., Прохоров А.В., 1987);

3) вычисление величины LOD

,

где L( — вероятность получить наблюдаемые результаты при уровне рекомбинации a. LOD > 3 считается доказательством наличия сцепления, т.к. в этом случае вероятность обратного составляет менее 0,1%.

Существует ряд других числовых характеристик НС: в частности, Δ = r, d,  (Morton N.E., 2001; Hill W., Weir B., 1994; Kaplan N.L., 1997; Edwards A.W.F., 1963).
1.2.2 Анализ сцепления

Анализ сцепления применяется на ранней стадии поиска генов, отвечающих за определенный признак. С помощью этого анализа определяется начальный интервал (зачастую довольно протяженный) хромосомный интервал интереса. При этом для выявления взаимосвязи между механизмом наследования генетических маркеров и механизмом наследования болезней или других признаков используется семейная информация. Сцепление с болезнью означает, что маркерная аллель наследуется больными индивидуумами чаще, чем это можно бы объяснить случайными факторами.

Анализ сцепления может быть параметрическим (для проверки того, соответствует ли механизм наследования определенной модели) и непараметрическим (независимым от модели наследования). Первый более эффективен при правильно определенной модели и наиболее информативен для больших генеалогий, пораженных множественными заболеваниями.

1.2.2.1 Параметрический анализ сцепления (ПАС)

При параметрическом подходе степень сцепления измеряется величиной LOD (см. раздел 2.1). В 90-х годах был создан ряд программ, производящих данный анализ, среди которых VITESSE, FASTLINK, LINKAGE и GENEHUNTER. В начале 2000-х была разработана программа MERLIN, обладающая бόльшими возможностями по сравнению с перечисленными. Она более быстрая, требует меньше памяти и может обработать больший объем данных.

1.2.2.2 Непараметрический анализ сцепления (НПАС)

Обзор этого метода можно найти в (Holmans P., 2001). Основная идея метода заключается в том, что родственники, имеющие схожие признаки, имеют одинаковые аллели маркеров, которые связаны с локусом, отвечающим за этот признак.

Идентичность аллелей может быть двух видов: идентичность по положению (ИПП) и идентичностью по наследованию (ИПН) (Sham P.C., 1998). Два аллеля являются ИПП, если они имеют одинаковую последовательность ДНК. Они являются ИПН, если, кроме того, унаследованы (и являются копиями) одного и того же предкового аллеля. Для анализа сцепления проводится тест, сравнивающий степень общности признака по сравнению со степенью общности, которая ожидается в предположении отсутствия сцепления. Обычно тестируемая статистика распределена по закону χ2, нормальному закону или по закону Фишера (Севастьянов Б.А., 1982), она часто преобразуется к виду, выражаемому в единицах LOD.

НПАС часто производит проверку на ИПП или ИПН в группах пар детей одних и тех же родителей (т.е. братьев и/или сестер), в которых оба человека обладают интересующим признаком. При отсутствии сцепления вероятность иметь общие 0, 1 или 2 аллеля ИПН равняется 0,25, 0,5 и 0,25 соответственно. Наличие сцепления приводит к отклонению от этих пропорций, существенность которого может быть выявлена с помощью теста χ2 (Гмурман В. Е., 2003; Cudworth A.G.). Другой вариант — тест средних (Гмурман В. Е., 2003), в котором в качестве нулевой гипотезы берется утверждение о том, что доля общих аллелей равна 0,5. Этот тест имеется практически в любом статистическом пакете (включая SPSS и Statistica), однако существуют программы SAGE и SIBPAIR (Terwilliger J.D.), способные обрабатывать данные с более сложной структурой родства и в которых статус ИПН не может быть однозначно установлен.

Для оценки степени ИПН дихотомических признаков (т.е. признаков, которые могут принимать два значения), измеренных для большего числа поколений, разработаны функции Sall и Spairs Уиттемора и Гальперна (Whittemore A.S., Halpern J., 1994).

Для нормально распределенных количественных признаков (Гмурман В. Е., 2003; Севастьянов Б.А., 1982) (или признаков, сводимых к таковым) эффективным подходом для изучения генеалогий любого размера является метод анализ компонент дисперсии (Goldgar D.E., 1990; Amos C.I., 1994). Этот метод реализован в программе MERLIN (Abecasis G.R., 2002) (см. раздел 1.2.2.3) и особенно в SOLAR, в которой степень каждого эффекта может быть оценена и проверена с помощью LR-теста. Для особенно сложных задач доступны методы Монте Карло для марковских цепей, как это реализовано, например, в программах LOKI (Heath S., 1997) и BLOCK (Jensen C.S. e.a., 1995). Однако эти методы неприменимы для слишком большого множества параметров ввиду недопустимо больших накладных расходов.

1.2.2.3 Анализ сцепления с помощью пакета программ MERLIN

MERLIN (Multipoint Engine for Rapid Likelihood Inference) предназначен для различных видов анализа сцепления: параметрического, непараметрического и регрессионного. Также его применяют для ассоциативного анализа, анализа родства и ИПН, гаплотипирования, оценки ошибок и симуляций. Пакет разработан для анализа плотных генетических карт как биаллельных, так и мультиаллельных маркеров. При анализе он использует генеалогические деревья.

Доступ к пакету свободный, загрузочный файл можно найти по адресу http://www.sph.umich.edu/csg/abecasis/Merlin/download/. Тот же сайт снабжен подробной справкой о программе: http://www.sph.umich.edu/csg/abecasis/Merlin/tour/.

Загрузка данных. Загрузка данных производится из нескольких файлов, которые описывают родственные связи, маркерный генотип, статус заболеваний, значения количественных признаков и предоставляют информацию о расположении маркеров и частотах аллелей.

Допускается два формата входных файлов: формат LINKAGE и формат QTDT. Форматы очень похожи между собой, поэтому остановимся подробно только на более новом из них — формате QTDT. Подробную информацию о формате LINKAGE можно найти по адресу http://linkage.rockefeller.edu/soft/linkage/.

Для формата QTDT необходимо три файла: файл генеалогии (.ped), файл данных (.dat) и файл карты (.map).

Файл генеалогии. Файл представляет собой таблицу, каждая строка которой соответствуют отдельному человеку. Информация о родственных связях хранится в первых пяти столбцах. В этих столбцах хранятся идентификатор семьи, индивидуальный идентификатор, идентификаторы отца и матери (если информация о них доступна) и пол. Например, если рассмотреть семью, состоящую из дедушки, бабушки (родители матери), папы, мамы, сестры и брата, то соответствующие строки файла генеалогии примут вид:

1 1 0 0 1

1 2 0 0 2

1 3 0 0 1

1 4 1 2 2

1 5 3 4 2

1 6 3 4 1

Столбцы файла генеалогии, начиная с шестого, описывают фенотип (качественные и количественные признаки) и маркерный генотип. Качественный признак (наличие или отсутствие болезни) кодируется следующим образом: U или A для здоровых (относительно данной болезни), A или 2 для больных, X или 0 для лиц, данные которых неизвестны. Количественные признаки записываются в виде чисел, причем X используется для обозначения неизвестных данных. Маркерные генотипы представляются в виде двух последовательных целых чисел, по одному для каждого аллеля. Допускается использование символа / в качестве разделителя. Также, начиная с версии 1.1, для обозначения маркерных генотипов можно использовать буквы A, C, T и G. Для обозначения неизвестных данных можно использовать любой из трех символов 0, X, N. Если маркер расположен на X-хромосоме, то для мужчин нужно ввести дважды одно и то же значение. Например, если к описанным выше столбцам добавить данные по качественному признаку, количественному признаку и генотипам по двум маркерам, то таблица файла может принять вид:

1 1 0 0 1 1 x 3 3 0 0

1 2 0 0 2 1 x 4 4 0 0

1 3 0 0 1 1 x 1 2 0 0

1 4 1 2 2 2 x 4 3 0 0

1 5 3 4 2 1 2.54 1 3 1 2

1 6 3 4 1 2 4.445 2 4 2 2

Такое заполнение означает, что брат и сестра являются больными, а остальные родственники здоровыми. Количественное значение для сестры равняется 2,54, для брата — 4,445. Генотипные данные по первому маркеру известны для каждого представителя семьи, а по второму маркеру — только для младшего поколения.

Файл данных представляет собой описание файла генеалогии. Каждая строка файла данных соответствует одному элементу файла генеалогии, определяя тем самым тип данных и предоставляя метку для каждого элемента. Типы данных обозначаются следующим образом: M — маркер, A — признак наличия заболевания, T — количественный признак, C — ковариата. Метка каждого элемента должна состоять из одного слова. Для представленного выше файла генеалогии, необходим файл данных следующего вида

A некая_болезнь

T некий_признак

M маркер

M другой_маркер

Для каждой пары файла генеалогии и файла данных можно получить описание итогов, воспользовавшись программой pedstats, входящей в пакет MERLIN. Программу необходимо запустить в командной строке, предварительно перейдя в папку с этой программой. Формат запуска pedstats имеет следующий вид:

pedstats –d <имя файла данных> -p <имя файла генеалогии>

Например, если в основную папку пакета из папки examples скопировать файлы asp.dat и asp.ped, то команда запуска pedstats для этих файлов будет иметь вид:

pedstats –d asp.dat -p asp.ped

Результат выполнения программы показан на рисунке 19.

В последних версиях программ Merlin и Pedstats появилась возможность комбинирования нескольких файлов генеалогий и данных. Эта возможность весьма удобна при анализе нескольких различных подмножеств фенотипов, а также когда данные о генотипе разделены по хромосомам или регионам. Например, если данные о фенотипе хранятся в файлах pheno.dat и phenol.ped, а данные о генотипе — в файлах geno.dat и geno.ped, команда для их комбинации будет иметь вид:

pedstats -d pheno.dat,geno.dat -p pheno.ped,geno.ped


Рисунок 19 - Пример вывода программы pedstat

Файл карты предоставляет информацию о расположении маркеров на хромосомах, необходимую для анализа. Каждой строке файла соответствует по одному маркеру. При этом если используется карта данных, усредненных по полу, то файл содержит три столбца, отвечающих хромосоме, имени маркера и позиции в сантиморганах. Если используется карта с различием позиций по полу, необходимо два дополнительных столбца, определяющих позицию маркера на женской и мужской генетической карте.

Файл данных и файл карты могут содержать различные наборы маркеров, однако MERLIN проигнорирует маркеры, которых нет в файле данных. Файл карты с усредненными данными по полу может, например, иметь вид:

24 some_marker 123.4

24 another_marker 136.2

Если добавить данные о позиции маркера на женской и мужской генетической карте, то содержимое файла может принять вид:

24 some_marker 123.4 146.8 100.0

24 another_marker 136.2 166.4 103.0

Разделение файла данных и файла карты упрощает структуру файлов и позволяет пакету за один запуск проанализировать данные ряда хромосом.

НПАС количественного признака. Напомним, что анализ сцепления проверяет взаимосвязь региона хромосомы и интересующего исследователя признака. В этом примере используется набор данных, содержащийся в упомянутых выше файлах asp.dat, asp.ped, asp.map. Файлы содержат данные о генотипе 20 маркеров условной 24-й хромосомы, отстоящих друг от друга на расстоянии около 5 сантиморганов. Файл генеалогии содержит данные о 200 семьях, в каждой из которых поражены болезнью два брата. Для каждого из этих 400 людей представлен генотип 20 маркеров, а также значение некоего количественного признака, меняющееся для данных индивидуумов от -3,778 до 2,988 (рис.19).

Для проведения анализа необходимо запустить программу merlin в командной строке, задав ряд параметров. Для НПАС обязательными параметрами являются имя файла данных (-d <имя файла данных>), имя файла генеалогии (-p <имя файла генеалогии>), имя файла карты (-m <имя файла карты>), а также параметр --npl, задающий сам вид анализа НПАС. Таким образом, если выполнить следующую команду

merlin –d asp.dat -p asp.ped –m asp.map --npl,

программа проведет НПАС данных, представленных в файлах asp.dat, asp.ped, asp.map. Первая часть вывода программы предоставляет информацию о выбранных опциях (рис. 20).


Рисунок 20 - Первая часть вывода программы merlin
Далее следует запись, представленная на рисунке 21.



Рисунок 21 - Запись о подсчете частот аллелей в выводе программы merlin

Она, в частности говорит о том, что оценка частот аллелей в данном случае производится среди всех индивидуумов (это значение по умолчанию). Альтернативными вариантами являются подсчет аллелей только среди основателей рода (опция -ff), установка равных частот аллелей (-fe) или использование файла частот аллелей с расширением freq. Последние фигурируют в формате входных данных QTDT. Описание формата файлов частот аллелей можно найти по адресу http://www.sph.umich.edu/csg/abecasis/merlin/tour/input_files.html#freqfile.

Последняя часть вывода состоит из самих результатов анализа (рис.22).


Рисунок 22 - Результаты анализа программы merlin
Первые две строки представляют собой минимально и максимально возможные значения для этого набора данных. После этого следуют результаты анализа для каждого маркера: позиция в сантиморганах, статистика Z, уровень значимости P, а также статистики Конг и Кокс — delta, LOD и P. Пик сцепления приходится на 11-й маркер (позиция 52,68), величина Z = 3,43 (уровень значимости 0,0003), соответствующее значение LOD Конг и Кокс равняется 3,05 (уровень значимости 0,00009).

Для графического представления результатов анализа можно воспользоваться опцией --pdf, которая сохраняет в файл формата pdf график зависимости величины LOD от позиции маркера. Так, если в нашем примере выполнить команду:

merlin –d asp.dat -p asp.ped –m asp.map –npl --pdf,

то, кроме описанного выше примера, программа создаст файл merlin.pdf, в котором сохранится график, представленный на рисунке 23.


Рисунок 23 - График зависимости величины LOD от позиции маркера в рассматриваемом примере
Опция --tabulate создает текстовый файл, в котором сохраняет итоги анализа. Опция отметим --markerNames, которая позволяет выводить наименования маркеров вместо их позиций. Таким образом, при выполнении команды:

merlin –d asp.dat -p asp.ped –m asp.map –npl –markerNames

результаты анализа примут вид, представленный на рисунке 24.

Также можно провести анализ позиций между маркерами: команда --steps n позволит провести анализ, разбив каждый интервал на n шагов. При выполнении команды

merlin –d asp.dat -p asp.ped –m asp.map –npl --steps 3

Начало вывода программы примет вид как на рисунке 25.


Рисунок 24 - Результаты анализа программы merlin при использовании опции –markerNames


Рисунок 25 - Начало вывода результатов анализа программы merlin при использовании опции --steps 3
Опция --grid n позволит провести анализ, общий интервал на отрезки длиной n сантиморганов. При выполнении команды

merlin –d asp.dat -p asp.ped –m asp.map –npl --grid 5

вывод программы примет вид как на рисунке 26.

Несмотря на то, что результаты анализа позволяют быстро выявить пик корреляции, они не могут четко указать интересующий нас участок. Поэтому обычно в окрестности пика строится так называемый интервал поддержки. В него, например, можно включить все точки, для которых значение LOD находится в пределах одной единицы от максимального. Более консервативный подход заключается во включении в интервал поддержки всех точек, имеющих значение LOD в пределах 1,5 – 2 единиц от максимального.


Рисунок 26 - Результаты анализа программы merlin при использовании опции –grid 5
Опция --information выводит данные об аллелях ИПН. Данные об аллелях ИПН для нашего примера представлены на рисунке 27.



Рисунок 27 - Данные об аллелях ИПН
Также стоит упомянуть об опции --ibd, которая генерирует и сохраняет в отдельном файле merlin.ibd вероятности ИПН в формате, который может быть использован в качестве входных данных других программ, например QTDT (Abecasis G.R., 2007). Программа SimWalk2 способна генерировать вероятности для более сложных генеалогических структур, обработка которых недоступна MERLIN, однако для маленьких и средних генеалогий MERLIN работает быстрее (Sham P.C., 1998).
1.2.3 Анализ сопряженности

Анализ сопряженности — это тест различий в частоте аллелей между больными и контрольными пациентами. Указанное различие не всегда влечет за собой наличие заболевания, т.к. на частоту аллелей может повлиять ряд других факторов, например, история популяции и ее этнический состав. Также нередки случаи, когда различие в частоте аллелей наблюдается вследствие того, что маркер расположен недалеко от гена, вызывающего болезнь.

Данный тест часто проводят при помощи статистических программных пакетов общего назначения, не имеющих генетической специфики, например, SPSS или Statistica. Например, можно воспользоваться тестом χ2. Для этого составляют факторную таблицу, в которой строки соответствуют статусу (больной или контрольный пациент), столбцы — генотипам или аллелям, а в ячейках указываются частоты этих генотипов или аллелей для каждой из групп. После этого вычисляется величина

,

где Obs и Exp — наблюдаемые и ожидаемые (в предположении независимости) частоты соответственно. Сумма берется по всей ячейкам таблицы. Важным параметром распределения χ2 является количество степеней свободы, в данном случае равное (r – 1)(c – 1), где r — количество строк, c — количество столбцов таблицы. Вместо теста χ2 можно применить логистическую регрессию (синоним — дискриминантный анализ) (Кендалл М., 1976), взяв статус болезни за зависимую переменную, а аллели или генотипы — за независимые.

1.2.3.1 Тесты на неравновесную передачу аллелей

Этнические различия между больными и контрольными пациентами могут привести к ложно-положительным выводам о сопряженности, особенно если анализ проводить для отдельно взятых людей без учета данных о генотипе или аллелях их родителей. Поэтому тесты, принимающие во внимание последнее обстоятельство, пользуются всё большей популярностью. В частности, тест TDT (transmission/disequilibrium test) известен как тест на сцепление при наличии сопряженности, который не приводит к ложно-положительным выводам при наличии стратификации популяции (Spielman R.S. e.a., 1993). TDT состоит в подсчете аллелей, переданных от гетерозиготных родителей одному или нескольким больным детям в нуклеарных семьях. Аллели, не переданные больным детям, можно рассматривать как контрольные в противоположность «больным» аллелям, наблюдаемым у больных детей. Проверка на неравновесность проводится с помощью теста Мак-Немара (Дубина И.Н., 2006), в качестве нулевой гипотезы берется предположение об отсутствии сцепления. TDT можно применять и для анализа сопряженности, но только в случаях, когда аллели гетерозиготных родителей передаются передаются только одному ребенку в каждой семье.

Предполагая, что локус является биаллельным, обозначим через b количество передач аллелей детям от гетерозиготных родителей, в которых аллель 1 передается больному ребенку, а аллель 2 не передается. Соответственно, через c обозначим количество передач противоположного вида, когда аллель 2 наследуется больным ребенком, в то время как аллель 1 не передается. Для проведения теста вычисляется величина

,

распределенная по закону χ2 с одной степенью свободы.

Существует ряд модификаций теста TDT (Barnes M.R., 2007). В частности, упомянутая в разделе 2.2.3 программа QTDT основана на модификации TDT для количественных признаков.

1.2.3.2 Восстановление гаплотипа

При косвенном исследовании ассоциаций, а также в случае, когда на один и тот же признак влияют смежные локусы, важную роль играет возможность применения теста на сопряженность не к отдельным локусам, а ко всему гаплотипу (Clark A.G. e.a., 1998; Nickerson D.A. e.a., 1998). Гаплотипы могут быть разделены при помощи генотипов родителей или других родственников, а также лабораторными методами, однако чаще всего для этого применяют алгоритм ожидания-максимизации. Последний оценивает наиболее вероятные значения параметров при наличии неполных данных. В случае оценки частот гаплотипов его схема имеет следующий вид:

1) определяется начальное множество правдоподобных частот гаплотипов. Например, произведение относительных частот соответствующих аллелей;

2) с помощью уравнения Харди-Вайнберга производится оценка ожидаемых частот упорядоченных генотипов;

3) полученные на предыдущем шаге частоты принимаются в качестве весов, на основе которых производится уточненная оценка гаплотипных частот;

4) шаги 2 и 3 повторяются до тех пор, пока гаплотипные частоты не достигнут равновесия.

Как и в случае других итерационных методов, имеет смысл сравнить результаты, полученные при различных начальных данных, т.к. последовательность можно сойтись к точке локального, а не глобального, оптимума.

1.2.3.3 Анализ сопряженности с помощью программы UNPHASED

UNPHASED вобрал в себя преимущества многих написанных ранее программ (Dudbridge F., 2008). С его помощью можно проводить как анализ по отдельным маркерам, так и анализ сопряженности целого гаплотипа; причем как количественных, так и бинарных признаков. В последней версии v3.1.4 программы есть возможность проверки сопряженности для данных о неродственных индивидуумах и нуклеарных семьях. При этом сохраняется поддержка программ PDTPHASE и QPDTPHASE, имеющихся в пакете UNPHASED версии v2.4 и отсутствующих в последней версии. PDTPHASE и QPDTPHASE можно использовать для анализа данных о расширенных (не нуклеарных) семьях. UNPHASED способен проводить анализ как биаллельных, так и мультиаллельных маркеров и предлагает большой выбор опций, обеспечивающих значительную гибкость при анализе данных. Например, при проведении гаплотипного анализа, пользователь может выбрать анализ всех групп последовательных маркеров заданной длины, так и вручную задать множество маркеров, для которых нужно провести тест. Среди других опций — возможность исключения из рассмотрения или объедения редких гаплотипов, вычисление величин D′ и r2, а также возможность выбора данных лишь одного больного ребенка из каждой семьи. Программа может быть запущена как под Windows, так и под UNIX и LINUX. В загрузочный комплект входят подробные инструкции (Dudbridge F., 2008), электронная версия статьи и исходный текст программы на языке C++ (de Bakker P.I., 2005).

Загрузка данных. Входные данные программы считываются из файла генеалогии. Во второй версии UNPHASED последний должен имеет формат LINKAGE, однако в третьей версии допускает формат QTDT (см. раздел 2.2.3). При этом идентификатор семьи (первый столбец) может иметь буквенно-числовой формат, остальные столбцы должны иметь числовой формат. Файл данных (см. раздел 2.2.3) использовать можно, но не обязательно.

Иллюстративный пример. Воспользуемся программой UNPHASED для исследования сопряженности количественного признака из файла asp.ped, включенного в поставку MERLIN (см. раздел 2.2.3). Проверим по отдельности влияние первого и четвертого маркера на количественный признак. Оставим в рассмотрении данные лишь одного больного ребенка из каждой семьи, т.е. лишь каждую четвертую строку файла. Выполним следующую команду:

unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk1 mrk4.

Опция -pedfile позволяет задать файл генеалогии, -datafile — файл данных. Параметр -trait задает количественный признак для анализа. Если он не указан, то берутся данные шестого столбца файла генеалогии. В нашем случае данные о количественном признаке находятся в последнем сорок седьмом столбце, поэтому количественный признак необходимо указать явно. Также мы явно задаем анализируемые маркеры, т.к. по умолчанию анализ будет проведен для всех маркеров.

Первую часть составляет перечисление параметров анализа. Вторую часть составляют результаты анализа (рис.28). Для каждого маркера вначале выведены частоты каждого аллеля, которые посчитаны на основе данных файла генеалогии. Вывод самих результатов анализа состоит из логарифма вероятности нулевой и альтернативной гипотезы, значения величины χ2 для тестируемых данных, количества степеней свободы, уровня значимости и доверительного интервала для каждого аллеля (Кендалл М., Стьюарт А., 1976). Если уровень значимости менее 0,05, то налицо сопряженность количественного признака с данным маркером. Если же уровень значимости более 0,05, то для подобного вывода оснований нет.




Рисунок 28 - Вывод программы UNPHASED для анализа сопряженности количественного признака с первым и четвертым маркером по отдельности

Если сделан вывод о сопряженности признака с маркером, то разумно поставить вопрос, какие аллели соответствуют высоким значениям признака, а какие — низким. Для ответа на этот вопрос необходимо задать относительную аллель, с которой будут сравниваться остальные. По умолчанию берется первая аллель (чтобы задать другую аллель можно воспользоваться опцией –reference). Если доверительный интервал (95%Lo, 95%Hi) некоторого аллеля содержит 0 (т.е. его концы имеют разные знаки), то делается вывод о том, что различие значений количественного признака для этого и первого аллеля несущественно. В противном случае различие значений количественного признака для аллелей существенно.

В нашем случае, мы делаем вывод об отсутствии сцепления количественного признака с первым маркером (уровень значимости — 0,95) и о наличии сцепления количественного признака с четвертым маркером (уровень значимости — 0,0004). Доверительный интервал второго аллеля (равно как третьего и четвертого) четвертого маркера не содержит нуля. Это говорит о существенности разницы количественного признака между носителями первого и второго (а также первого и третьего, первого и четвертого) аллеля. Выполнив команду

unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk4 -reference 2,

сравним значения признака для второго и остальных аллелей (рис.29). Как и следовало ожидать доверительный интервал первого аллеля не включает 0, что еще подтверждает существенность разницы количественного признака между носителями первого и второго аллеля. Зато два других доверительных интервала включают 0, поэтому разница между значениями признака для второго и третьего (а также второго и четвертого) аллеля несущественна.




Рисунок 29 - Вывод программы UNPHASED для анализа сопряженности количественного признака с аллелями четвертого маркера при втором аллеле в качестве относительного
Также можно провести анализ сцепления для гаплотипа, образованного несколькими маркерами. Для этого служит опция -window, параметром которой является количество подряд идущих маркеров, которые будут проанализированы вместе. Например, если в анализ включено 20 маркеров и задана опция -window 4, то будет проведен отдельный анализ для каждой из 17 четверок маркеров (1 2 3 4, 2 3 4 5, …, 17 18 19 20).

В нашем примере зададим совместный анализ первого и четвертого маркера:

unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk1 mrk4 –window 2.

Вывод результатов анализа представлен на рисунке 30. Как видим, имеет место сопряженность признака с гаплотитом. При этом разница значения количественного признака для гаплотипов 1-1 и 1-2 несущественна, для гаплотипов 1-1 и 1-4 существенна.



Рисунок 30 - Вывод программы UNPHASED для анализа сопряженности количественного признака с первым и четвертым маркером совместно
Также есть возможность сравнения двух гаплотипов между собой при помощи опции -compare … -with … Например, -compare 1 2 -with 1 3.

2 ГЕНОМНЫЕ ТЕХНОЛОГИИ – AP-PCR, DNA-ARRAY AND FIAV. МАТЕРИАЛЫ НАУЧНОГО СЕМИНАРА ПРИГЛАШЕННОГО ИССЛЕДОВАТЕЛЯ

1   2   3   4   5   6   7   8   9

Похожие:

Отчет о выполнении поисковых научно-исследовательских работ по теме iconОтчет о выполнении работ по шестому этапу государственного контракта...
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
Отчет о выполнении поисковых научно-исследовательских работ по теме iconФормирование ключевых компетенций учащихся при использовании проблемных...
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconВсероссийская научно-практическая конференция с международным участием
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconУтверждаю ректор юфу, профессор Захаревич В. Г. Положение об учебно-научно-инновационном...
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconКорогодов Филипп Игоревич
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconСпециальность 02. 00. 04 «Физическая химия»
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconСельскохозяйственных животных и птицы
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconПриложение №4 к Решению Городского Совета
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconМетодические указания к семинарским занятиям
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconТема: «Экономика». В 1 Подготовка к егэ а 1
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconЧеченской молодёжи г. Грозный 2013 г
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconОбщие требования к учебному процессу
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconПрограмма Дисциплина Основное богословие до
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconТема Культура как общественное явление
...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconВиды научно-исследовательских работ
Спектр научно-исследовательских работ достаточно широк. К ним относятся рефераты, доклады, контрольные работы, курсовые, итоговые,...
Отчет о выполнении поисковых научно-исследовательских работ по теме iconГотовимся к егэ. Запишите слово, пропущенное в схеме
...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск