Распознавание регуляторных сигналов


The Presentation inside:

Slide 0

Распознавание регуляторных сигналов Е.О. Ермакова - занятия Д.А. Равчеев, В.Ю. Макеев, М.С. Гельфанд - слайды Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2010 года) Осенний семестр 2011 года


Slide 1

ChIP-Seq – экспериментальное определение сайтов связывания белков и ДНК


Slide 2

Транскрипция и трансляция в прокариотах


Slide 3

Эукариоты Прокариоты 1. Сопряжение транскрипции и трансляции 2. Котранскрипция нескольких генов (опероны) Транскрипция Процессинг пре-мРНК Экспорт мРНК Трансляция (синтез пре-мРНК) кэпирование сплайсинг полиаденилирование


Slide 4

Сплайсинг ( эукариоты ) Сборка сплайсосомы Разрез на 5’ конце интрона, образование «аркана» Разрез на 3’ конце интрона, соединение экзонов


Slide 5

Транскрипция в прокариотах : Инициация транскрипции Направление транскрипции Старт транскрипции Промотор


Slide 6

Транскрипция в прокариотах : Регуляция транскрипции Репрессия Активация


Slide 7

Структура ДНК-связывающего домена CI, фаг l


Slide 8

Структура ДНК-связывающего домена Cro, фаг l


Slide 9

Белок-ДНКовые взаимодействия CI Cro


Slide 10

Регуляция транскрипции у эукариот


Slide 11

Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований Регуляция транскрипции у эукариот Регуляторные модули ( В. Ю. Макеев )


Slide 12

Консенсус Pattern (“образец” - консенсус с вырoжденными позициями) Матрица частот, nucleotide frequency matrix Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура Представление сигналов


Slide 13

Консенсус CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 consensus


Slide 14

Образец cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 consensus pattern CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGСAAACGTTTTCGT amGСAAaCGkTTwCwT Сайты связывания PurR E. coli


Slide 15

Матрица частот Сайты связывания PurR E. coli Информационное содержание : I = ?j ?b f (b, j) log [f (b, j) / p (b)] f (b, j) – частота нуклеотида b в позиции j p (b) – частота нуклеотида в геноме где


Slide 16

Диаграмма Лого ( Logo ) Сайты связывания PurR E. coli I = ?j ?b f (b, j) log [f (b, j) / p (b)]


Slide 17

Позиционная весовая матрица (профиль ) W (b, j) = ln [N (b, j)+0,5] – 0,25 ?i ln [N (i, j)+0,5]


Slide 18

Позиционная весовая матрица (профиль ) Термодинамическая мотивировка : свободная энергия Предположение : независимость соседних позиций


Slide 19

Сравнение частотной и весовой матриц   Частоты Веса


Slide 20

Начало: Исправление ошибок Проверка литературных данных Удаление дубликатов Составление выборки GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи) предсказанные сайты


Slide 21

Первоначальное выравнивание по биологическим признакам Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся Перевыравнивание промоторы : старт транскрипции участки связывания рибосом : стартовый кодон сайты сплайсинга : экзон-интронные границы


Slide 22

Начала генов Bacillus subtilis


Slide 23


Slide 24


Slide 25

Позиционное информационное содержание до и после перевыравнивания после до


Slide 26

Оптимизация Expectation - Maximization Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль) Матрица частот Матрица (профиль) весов k-мер : ACGT


Slide 27

Оптимизация Expectation - Maximization Для каждого профиля : Повторять пока не сойдётся найти наилучшего представителя в каждой последовательности обновить профиль


Slide 28

http://meme.sdsc.edu/meme4_5_0/cgi-bin/meme.cgi


Slide 29

Оптимизация Expectation - Maximization Недостатки метода : Алгоритм сходится, но не может покинуть область локального максимума Поэтому если начальное приближение было плохим, он сойдётся к ерунде Решение: стохастическая оптимизация


Slide 30

Имитация теплового отжига Цель : максимизировать информационное содержание I или любой другой функционал, измеряющий однородность множества сайтов I = ?j ?b f (b, j) log [f (b, j) / p (b)]


Slide 31

Имитация теплового отжига Алгоритм A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A B – сигнал, отличающийся от А выбором сайта в одной последовательности I (B) – информационное содержание B если I (B) ? I (A), B принимается если I (B) < I (A), B принимается с вероятностью P = exp [ (I(B) – I(A)) / T ] Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р ? 1).


Slide 32

Gibbs sampler A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~ exp [ (I (Anew) ] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.


Slide 33

Использование свойств сигнала ДНК-связывающие белки и их сигналы Кооперативные однородные Палиндромы Кооперативные неоднородные Кассеты Прямые повторы Другие РНК-сигналы


Slide 34

Распознавание сайтов : весовые матрицы (профили) W (b, j) = ln [N (b, j)+0,5] – 0,25 ?i ln [N (i, j)+0,5] Позиционные веса нуклеотидов Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов : S (b1…bk) = ?i=1…k W (bi , j)


Slide 35

Распознавание сайтов : весовые матрицы (профили) GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT carA Escherichia coli K-12 Вес данного потенциального сайта : S = 21,2


Slide 36

Распределение весов сайтов связывания рибосом сайты не сайты вес Кол-во сайтов


Slide 37

Оценка качества алгоритмов Чувствительность = правильно предсказанные все правильные Специфичность = правильно предсказанные все предсказанные Трудно составить тестирующую выборку: неизвестные сайты активация в определенных условиях неспецифическое связывание


Slide 38

Промоторы Escherichia coli K-12 Профиль предсказывает 1 сайт на 2000 нт Чувствительность: 25% на всех промоторах 60% на конститутивных (неактивируемых) промоторах


Slide 39

Эукариотические промоторы Случайные предсказания


Slide 40

Сайты связывания рибосом Надежность предсказания зависит от информационного содержания Информационное содержание Правильно предсказанные старты трансляции (в %)


Slide 41

CRP (Escherichia coli) % OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных) UN = 1 – чувствительность недопредсказание (% потерянных правильных)


Slide 42

Запись GenBank для гена aroP E. coli aroP TyrR TyrR PutA OxyR ArgR promoter


Slide 43

Что же делать ? Выход : филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны


Slide 44

Консервативная область purL PurR


Slide 45

Менее консервативная область yjcD PurR PurR


Slide 46

rbsD в энтеробактериях RbsR


Slide 47

Сложная ситуация сайты консервативны … Сайты связывания FruR перед ppsA


Slide 48

Сложная ситуация … но не на выравнивании


Slide 49

регулируется НЕ регулируется ? Базовый геном Метод проверки соответствия Геномы родственных организмов


Slide 50

http://genome.lbl.gov/vista/rvista/submit.shtml


Slide 51

rVista Матрицы TRANSFAQ (частотные) или консенсус


Slide 52

rVista all sites aligned sites conserved sites CNS = conserved non-coding sequences


Slide 53

rVista Conserved sites : располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н. Aligned sites : ключевые позиции идентичны в обеих последовательностях All sites : все сайты : conserved+aligned+все остальные предсказанные


Slide 54

rVista


×

HTML:





Ссылка: