Наприклад скорингу

Матриці на праву сторону слайд є підмножиною повної BLOSUM62 забив матриці. Порівняння зразків послідовності показано на малюнку зліва. Зелений означає нуль балів. Червоний і синій означають позитивні і негативні оцінки, відповідно. Зверніть увагу, що позитивні оцінки, як правило, являють собою консервативні амінокислотні заміни.

20. динамічне програмування

Можливість прогалин (або вставки) робить число можливих вирівнювання послідовностей астрономічним

Динамічне програмування робить можливим вирівнювання послідовностей, відмовившись від низького вирівнювання забив серед підпослідовності в якості алгоритму прогресує

Математично доведено, щоб забезпечити оптимальне вирівнювання

DP алгоритми вирівнювання послідовності

Needleman-Wunsch-Gotoh алгоритм глобального вирівнювання

Smith-Waterman алгоритм вирівнювання для місцевих

DP алгоритми вирівнювання ще занадто повільним для пошуку всій базі даних послідовність

Можливість прогалин (або вставки) робить число можливих вирівнювання послідовностей між двома послідовностями астрономічні, тому проблема вирівнювання послідовності вимагає потужних обчислювальних методів для її вирішення. Динамічне програмування (ДП) являє собою підхід використовується для вирішення широкого спектру завдань в галузі комп'ютерних наук. Його влада виходить від його здатності розбити великою проблемою на безліч дрібних підзадач, які потім вирішити, щоб домогтися рішення більш широкої проблеми. У випадку вирівнювання послідовності, дві послідовності розбиті на все менші підпослідовності, поки тільки одна амінокислот або нуклеотидів, які порівнюються. Кожне порівняння забив, і низький забив підпослідовності будуть видалені з якої додаткової обробки, значно зменшуючи кількість підпослідовність порівнянь, які необхідно знайти оптимального вирівнювання для двох послідовностей в питанні. DP алгоритми O (N2) для двох послідовностей, які мають п амінокислот або нуклеотидів. Ці методи також математично довели для забезпечення оптимального вирівнювання двох послідовностей для даного забив матриці. DP алгоритми вирівнювання послідовності включають Needleman-Wunsch-Gotoh алгоритм глобального вирівнювання та Smith-Waterman алгоритм для місцевих угруповань. На жаль, DP алгоритми часто не вистачає швидкості, необхідні для виконання послідовності вирівнювання по всій баз даних послідовності. У більшості випадків, біологи змушені використовувати евристичні методи для вирішення таких завдань.

21.ЕВРИСТИЧНІ МЕТОДИ k-tuples

Приклад: BLAST

Використання запиту послідовності, отримати список слів довжини W (наприклад, 3)

Тримайте високим балом слова

З високим балом слів у порівнянні з базами даних послідовностей

Послідовності з багатьох матчах з високим балом слова використовуються для остаточного вирівнювання

K-кортеж методи евристичного послідовність вирівнювання алгоритми, які набагато швидше, ніж динамічного програмування і звичайно забезпечують оптимальне вирівнювання, хоча і не доказовою так. Ці методи є відмінними для порівняння послідовності з запитом всій базі даних послідовність. Два популярних К-кортеж програми BLAST (Basic Local Alignment Search інструмент) і FASTA. Ми використовуємо програму BLAST щоб показати, як K-кортеж алгоритми роботи. Запит послідовність використовується для отримання списку "слова" (або "кортежі"), які мають довжину, зазначену користувачем. Наприклад, послідовність ABCDE може бути розділена на три слова з трьох літер кожного: ABC, BCD і CDE. Цей крок показаний в частині фігури на слайді. Кожне слово потім забив (з використанням скорингу матриці) у відношенні бази даних послідовностей, а найвищі слова забив збережені і використані для подальшого пошуку. Послідовностей в базі даних, які мають багато точних збігів з високим рівнем виграшу слова обрані для подальшої обробки (показано в частині B). Нарешті, з високим балом слова використовуються в якості якоря для керівництва вирівнювання послідовності між запитом послідовності і з високим балом послідовності повернувся з бази даних. Дві послідовності зрушені відносно один одного, щоб максимізувати вирівнювання рахунку.

22. статистична значимість

Імовірність вирівнювання не мають біологічне значення

Статистична значимість увазі низьку ймовірність отримання можливості вирівнювання

Імовірність довго вирівнювання збільшується з більш довгими послідовностями

Крайні значення розподілу

Використовується для розрахунку ймовірності шанс вирівнювання

Породжених розрахунку балів у результаті неодноразово скремблювання одна з порівнюваних послідовностей

Навіть тоді, коли послідовність вирівнювання знайдено, біологи потрібен спосіб визначити, чи є воно, ймовірно, буде біологічно значимими. Імовірність вирівнювання не розкривають будь-які біологічні відносини. Цілком можливо, що деяка послідовність подібності виникають випадково і не вказує на загального предка між двома послідовностями. Короткі нитки ДНК, як AGCT ілюструє цей момент. Імовірність того, ще чотири-пар основ послідовності, що має той же склад, складає 1/4 X 1/4 X 1/4 X 1/4, або 1/256. Це може здатися малоймовірним подією, але якщо послідовності ми порівнюємо з AGCT сотні або тисячі пар основ, то можна очікувати, що велика кількість послідовностей буде містити цю модель. Враховуючи високу ймовірність того, що ця модель буде виникати випадково, було б нерозумно припускати, що всі ці послідовності так чи інакше біологічно пов'язані між собою. Звичайно, завжди існує можливість, навіть майже ідентичні послідовності, що послідовності виникли незалежно один від одного і не є біологічно пов'язані між собою. Таким чином, ймовірність пороги (наприклад, порогові значення для статистичної значущості) повинен бути встановлений біологи, хочу сказати, що дві послідовності, які можуть бути пов'язані між собою. Наприклад, біолог, можливо, побажають розглянути всі послідовності, які мають менше ніж 1/1, 000 вірогідність вирівнювання по можливості бути біологічно пов'язані між собою. Розрахунок ймовірності шансів вирівнювання точно складніше, ніж на простому прикладі ми розглянули раніше. Це вимагає взявши два вирівняних послідовностей, неодноразово скремблювання один, розрахунку вирівнювання нот з яєчнею послідовності, створюючи гістограми від цього процесу, а потім обчислення ймовірності оптимального вирівнювання, що відбуваються випадково. Розподіл шансів вирівнювання балів описується кривою називається максимумі розподілу. Ця крива використовується для створення ймовірностей для визначення статистичної значущості.

23. Практичний приклад вирівнювання послідовності

В результаті " BLAST домашню сторінку (http://www.ncbi.nlm.nih.gov/ BLAST /) можна знайти на Національний центр біотехнологічної інформації (NCBI) сайту. Послідовність вирівнювання здійснюється безкоштовно та охоплюють всі доступні бази даних загальних послідовності. Слайд-шоу в верхній частині запиту сторінки для білок-білкових BLAST, програма, яка виконує послідовність вирівнювання по амінокислотної послідовності. Запит послідовність вводиться в "Пошук" текстове поле. Для цього прикладу ми вибрали МАШ-1, фактор транскрипції, що регулює розвиток нервової щурів. Натиснувши на кнопку " BLAST!" Кнопку, користувач відправляє запит послідовність для вирівнювання. Оскільки кількість часу, щоб виконати послідовність вирівнювання може сильно варіюватися, BLAST програма дає користувачеві оцінку часу, який буде потрібно для повернення результатів. Результати для МАШ-1 запит показано на наступному слайді.