Рибосомальная 16S РНК, полимеразная цепная реакция (ПЦР) и секвенирование биополимеров

ОБЩИЕ СВЕДЕНИЯ О СЕКВЕНИРОВАНИИ БИОПОЛИМЕРОВ

Общие понятие о полимеразной цепоной (ПЦР) реакции и секвенировании

16S рРНК, полимеразная цепная реакция (ПЦР) и секвенирование биополимеров (ДНК и РНК)

Содержание:

Развитие методов молекулярной биологии вывело ученых на новый уровень понимания процессов симбиоза человека и его микрофлоры, которые казались хорошо изученными и от дальнейшего изучения которых не ждали особых сюрпризов. Стремительный рост скорости и падение стоимости методов секвенирования ДНК (определения ее нуклеотидной последовательности) и параллельный рост мощности персональных компьютеров и развитие интернета дали возможность анализировать информацию о крупных участках геномов. После того как были расшифрованы хромосомы сотен видов отдельных бактерий, в генетике микроорганизмов появился новый подход — популяционный: анализ генов сразу всех бактерий, населяющих определенный ареал. Разумеется, население «человеческого биореактора» оказалось одной из наиболее важных для изучения микробных популяций.

Первая работа, заставившая совершенно по-новому взглянуть на кишечную микробиоту, была опубликована в 1999 году группой ученых из Национального института агрономических исследований (Франция) и Университета Ридинга (Великобритания). Авторы решили применить для исследования микробной популяции кишечника метод секвенирования генов 16S РНК.

16S рPHK — удостоверение личности бактерии

Модель малой субъединицы рибосомы Thermus thermophilus. РНК показана оранжевым, белок — фиолетовым.

Идентификация любого штамма начинается с описания физиологических характеристик микроорганизмов. Однако, не всегда знание данных признаков позволяет с уверенностью определить систематическую принадлежность к тому или иному роду и виду.

Широко, например, известен полиморфизм бифидобактерий, что затрудняет их определение (систематику). Вилочковидная форма бифидобактерий как правило возникает на бедных средах. При выделении новых культур используют богатые среды, поэтому часто наблюдаются прямые палочки, коккобациллы, порой они образуют даже цепочки клеток. Довольно часто при первичной идентификации лактобациллы можно отнести к бифидобактериям. Описанные в литературе родоспецифичные праймеры обладают недостаточной специфичностью, что может приводить к ложноположительным результатам.


Чтобы избежать ложноположительных результатов при первичной идентификации штаммов, для окончательной идентификации выделенных бифидобактерий (и др. прокариот) необходим анализ секвенирования гена рибосомной 16S РНК.

На гифке выше - Модель малой субъединицы рибосомы Thermus thermophilus. РНК показана оранжевым, белок — фиолетовым.

16S рРНК - один из трёх основных типов рРНК, образующих основу рибосом прокариот, находятся в их малой (30S) субъединице. Константа седиментации равна 16S (единиц Сведберга); константы двух других молекул равны 5 и 23 S. Длина 16S рРНК - около 1600 нуклеотидов. Из трёх типов рРНК удобнее всего анализировать 16S и 18S рРНК. У эукариот существуют аналогичные рибонуклеиновые кислоты 18S рРНК, состоящие приблизительно из 2500 нуклеотидов.

Итак, первый этап определения микроорганизмов - их культивирование на питательных средах. Но ряд микробов не желают расти ни на одной из сред.

Современные методики

Изучать ранее недоступные некультивируемые бактерии и начать наводить порядок в донельзя запутанной систематике уже известных прокариот стало возможным с развитием биоинформатики и появлением современных методов молекулярной биологии - ПЦР (полимеразной цепной реакции), позволяющей из одного участка ДНК получить миллиарды точных копий, клонирования выделенных генов в бактериальных плазмидах и методик секвенирования последовательностей нуклеотидов, полученных в достаточном для анализа количестве. Идеальным маркером для идентификации микроорганизмов оказался ген, кодирующий 16S рибосомальную РНК (каждая из двух субъединиц рибосом — клеточных мастерских по синтезу белка — состоит из переплетенных молекул белков и цепочек рибонуклеиновых кислот).

Идеальный маркер

Этот ген есть в геноме всех известных бактерий и архей, но отсутствует у эукариот и вирусов, и если вы нашли характерную для него последовательность нуклеотидов - вы точно имеете дело с генами прокариот. Этот ген имеет как консервативные участки, одинаковые у всех прокариот, так и видоспецифичные. Консервативные участки служат для первого этапа полимеразной цепной реакции — присоединения исследуемой ДНК к праймерам (затравочным участкам ДНК, к которым изучаемая цепочка нуклеотидов должна присоединиться для начала анализа остальной последовательности), а видоспецифичные - для определения видов. Степень схожести видоспецифичных участков отражает эволюционное родство разных видов. Для клонирования и последующего анализа можно использовать саму рибосомальную РНК, которая в любой клетке присутствует в большем количестве, чем соответствующий ей ген. Нуклеотидные последовательности 16S рРНК всех известных бактерий и архей общедоступны. Выявленные последовательности сравнивают с имеющимися в базах данных и идентифицируют вид бактерии или объявляют ее принадлежащей к некультивируемому виду.

Новая систематика

В последнее время идет интенсивный пересмотр старой, фенотипической классификации бактерий, основанной на плохо формализуемых критериях — от внешнего вида колоний до пищевых предпочтений и способности окрашиваться разными красителями. Новая систематика опирается на молекулярные критерии (16S РНК) и только отчасти повторяет фенотипическую.

Что у нас внутри

кишечные бактерииКодирующие последовательности 16S РНК с помощью полимеразной цепной реакции (ПЦР) извлекали непосредственно из «окружающей среды» - 125 мг человеческого, извините, стула встраивали в плазмиды кишечной палочки (не потому, что она кишечная, а потому, что Escherichia coli - одна из любимых рабочих лошадок молекулярных биологов) и снова выделяли из культуры размножившихся бактерий. Таким образом была создана библиотека генов рибосомной 16S РНК всех микроорганизмов, находившихся в образце. После этого случайным образом было отобрано и секвенировано 284 клона. Оказалось, что только 24% полученных последовательностей 16S РНК принадлежали известным ранее микроорганизмам. Три четверти микрофлоры, находящейся в кишечнике каждого человека, больше сотни лет избегали внимания исследователей, вооруженных методами классической микробиологии! Ученые просто не могли подобрать условия для культивирования этих бактерий, потому что самые капризные обитатели кишечника отказывались расти на традиционных микробиологических средах.

На сегодняшний день при помощи молекулярных методов установлено, что в микробиоте взрослого человека представлены 10 из 70 крупных бактериальных таксонов.

Полимеразная цепная реакция (ПЦР)

Полимеразная цепная реакция (ПЦР) - экспериментальный метод молекулярной биологии, позволяющий добиться значительного (до 1012 раз) увеличения малых концентраций определённых фрагментов (т.е. копий фрагментов) нуклеиновой кислоты (ДНК) в биологическом материале (пробе или in vitro). Она была изобретена Кэри Муллисом (Kary Mullis) в 1983 году, за что в1993 году он получил Нобелевскую премию по химии (совместно с М. Смитом).

ПЦР позволяет производить множество других манипуляций с нуклеиновыми кислотами (введение мутаций, сращивание фрагментов ДНК) и широко используется в биологической и медицинской практике, например, для диагностики заболеваний (наследственных, инфекционных), для установления отцовства, для клонирования генов, выделения новых генов.

Метод основан на многократном избирательном копировании определенного участка ДНК при помощи ферментов в искусственных условиях. При этом происходит копирование только того участка ДНК, который удовлетворяет заданным условиям, и только в том случае, если он присутствует в исследуемом образце. В отличие от репликации ДНК в клетках живых организмов, с помощью ПЦР амплифицируют сравнительно короткие участки ДНК (обычно, не более 3000 пар нуклеотидов, однако есть методы позволяющие «поднимать» до 20 тысяч пар нуклеотидов - так называемый Long Range PCR).

Фактически, ПЦР является искусственной многократной репликацией фрагмента ДНК.

ДНК-полимеразы так устроены, что не могут синтезировать новую ДНК, просто имея в наличии матрицу и мономеры. Для этого необходима еще и затравка (праймер), с которого они начинают синтез. Праймер - это короткий одноцепочечный фрагмент нуклеиновой кислоты, комплементарный ДНК-матрице. При репликации в клетке такие праймеры синтезируются специальным ферментом праймазой и являются молекулами РНК, которые позже заменяются на ДНК. Однако в ПЦР используют искусственно синтезированные молекулы ДНК, поскольку в этом случае не нужна стадия удаления РНК и синтеза на их месте ДНК. В ПЦР праймеры ограничивают амплифицируемый участок с обеих сторон.

Изначально в реакционной смеси находятся: ДНК-матрица, праймеры, ДНК-полимераза, свободные нуклеозиды (будущие «буквы» в новосинтезированной ДНК), а также некоторые другие вещества, улучшающие работу полимеразы (их добавляют в специальные буферы, используемые в реакции).

Чтобы синтезировать ДНК, комплементарную матрице, необходимо, чтобы один из праймеров образовал с ней водородные связи (как говорят, «отжегся» на ней). Но ведь матрица уже образует их со второй цепью! Значит, сначала необходимо расплавить ДНК, - то есть разрушить водородные связи. Делают это с помощью простого нагревания (до ≈95°С) - стадия, называемая денатурацией. Но теперь и праймеры из-за высокой температуры не могут отжечься на матрице! Тогда температуру понижают (50–65 °С), праймеры отжигаются, после чего температуру немного поднимают (до оптимума работы полимеразы, обычно, около 72°С). И тогда полимераза начинает синтезировать комплементарные матрице цепи ДНК - это называют элонгацией (рис. 2).

Схема ПЦР

Рис. 2. Схема полимеразной цепной реакции (ПЦР)

После одного такого цикла количество копий необходимых фрагментов удвоилось. Однако ничто не мешает повторить это еще раз. И не один, а несколько десятков раз! И с каждым повтором количество копий нашего фрагмента ДНК будет удваиваться, ведь новосинтезированные молекулы тоже будут служить матрицами (рис. 3)! (На самом деле эффективность ПЦР редко настолько высока, что количество копий именно удваивается, но в идеале это так, да и реальные числа часто бывают близки к этому.)

С каждым циклом ПЦР количество целевой ДНК удваивается

Рис. 3. С каждым циклом ПЦР количество целевой ДНК удваивается

Увидеть результаты ПЦР очень просто: достаточно провести электрофорез реакционной смеси после ПЦР, и будет видна яркая полоса с полученными копиями.

Раньше полимеразу, инактивирующуюся при нагревании с каждым циклом, приходилось все время добавлять, но вскоре было предложено использовать термостабильную полимеразу из термофильных бактерий, которая выдерживает такой нагрев, что сильно упростило проведение ПЦР (чаще всего используют Taq-полимеразу из бактерии Thermus aquaticus).

Можно еще много говорить о различных тонкостях ПЦР, но важнее всего сказать об альтернативных классическому форезу методах определения результатов. Например, довольно очевидным вариантом является добавление в реакционную пробирку перед началом реакции веществ, флуоресцирующих в присутствии ДНК. Тогда, сравнив изначальную флуоресценцию с конечной, можно увидеть, синтезировалось ли значительное количество ДНК или нет. Но этот способ не специфичен: мы никак не сможем определить, синтезировался ли необходимый фрагмент, или это какие-то праймеры слиплись и достроились до непредсказуемых последовательностей.

Наиболее интересным вариантом является ПЦР «в реальном времени» («real-time PCR») . Существует несколько реализаций этого метода, но идея везде одна и та же: можно прямо в ходе реакции наблюдать за накоплением продуктов ПЦР (по флуоресценции). Соответственно, для проведения ПЦР «в реальном времени» нужен специальный прибор, способный возбуждать и считывать флуоресценцию в каждой пробирке. Самое простое решение - добавить в пробирку те же самые вещества, которые флуоресцируют в присутствии ДНК, однако минусы такого метода уже были описаны выше.

Строго это называется «ПЦР с регистрацией флуоресценции в режиме реального времени» или «количественная ПЦР». — Ред.

СЕКВЕНИРОВАНИЕ БИОПОЛИМЕРОВ

молекула ДНКРис. 4. Молекула ДНК

Рассмотрим сначала ДНК. Молекулы полимеров характеризуются первичной структурой, под которой понимается просто состав молекулы (в случае ДНК – это последовательность букв A, C, G и T, которые и составляют геном), вторичной структурой, т.е. тем, какие именно химические связи устанавливаются между этими компонентами и какие в результате получаются базовые пространственные структуры (в данном случае – двойная спираль), и третичной структурой, т.е. тем, как вторичная структура «уложена» в пространстве. Вторичная структура ДНК представляет собой двойную спираль, состоящую из четырёх разных нуклеотидов. Нуклеотиды обозначаются по содержащимся в них азотистым основаниям: аденину (A), цитозину (C), гуанину (G) и тимину (T) (есть ещё урацил, который в РНК заменяет тимин), и в дальнейшем мы всегда будем пользоваться этими буквами. В двойной спирали эти аминокислоты связаны друг с другом водородными связями, и связь устанавливается по принципу комплементарности: если в одной нити ДНК стоит A, то в комплементарной нити будет T; а если в одной нити C, то в другой будет G. Именно это позволяет относительно просто проводить репликацию (копирование) ДНК, например, при делении клетки: для этого достаточно просто разорвать водородные связи, разделив двойную спираль на нити, после чего парная нить для каждого «потомка» автоматически соберётся правильно. Важно понять, что ДНК – это две копии одного и того же «текста» из четырёх «букв»; «буквы» в копиях не идентичны, но однозначно соответствуют друг другу.

Например:

ATGCAGAACAGACGATCAGCGACACTTTA

TACGTCTTGTCTGCTAGTCGCTGTGAAAT

Было бы, конечно, удобно, если бы нам удалось аккуратно «вытянуть» одну нить ДНК и спокойно, нуклеотид за нуклеотидом, «прочесть» эту нить от начала до конца. При таком идеальном методе секвенирования (чтения ДНК) никаких хитрых алгоритмов не понадобилось бы. К сожалению, на данном этапе такое невозможно, и приходится довольствоваться результатами того секвенирования, которое есть.

Секвенирование РНК

Секвенирование биополимеров (белков и нуклеиновых кислот — ДНК и РНК) - определение их аминокислотной или нуклеотидной последовательности (от лат. sequentum — последовательность). В результате секвенирования получают формальное описание первичной структуры линейной макромолекулы в виде последовательности мономеров в текстовом виде.

Секвенирование РНК: Большинство экспериментов по секвенированию РНК проводятся на оборудовании, которое предназначено для секвенирования молекул ДНК. В связи с этим необходимым шагом для секвенирования РНК является создание библиотеки кДНК (комплементарной ДНК), полученной из исследуемой тотальной РНК. Каждая кДНК из такой библиотеки представляет собой фрагмент ДНК разного размера, фланкированный по обоим краям специальными адаптерами. Наличие адаптеров необходимо для последующей амплификации образцов и секвенирования. Методы создания библиотек кДНК варьируются в зависимости от конечной цели исследования и типа изучаемой РНК (РНК может различаться в размере, последовательности, структурных особенностях а также в концентрации). Перед созданием бибилиотеки кДНК, подходящей для конкретного эксперимента, необходимо ответить на следующие вопросы: 1) какие именно молекулы РНК представляют интерес; 2) как получить кДНК желаемого размера; 3) каким способом лучше присоединенить адаптерные последовательности к краям кДНК для амплификации и секвенирования.

Перед секвенированием кДНК ее необходимо амплифицировать с помощью ПЦР. Непосредственно перед проведением ПЦР можно ввести молекулярные маркеры. Эта процедура особенно актуальна, если РНК в образце изначально немного, как, например, в случае секвенирования РНК одной клетки.

Метод секвенирования РНК становится основным методом определения того, какие гены и на каком уровне экспрессируются в клетке. С помощью РНК секвенирования можно определять различия в экспрессии генов на различных стадиях развития организма или в разных тканях.

Секвенирование ДНК

Секвенирование ДНК – это общее название методов, которые позволяют установить последовательность нуклеотидов в молекуле ДНК. В настоящее время нет ни одного метода секвенирования, который бы работал для молекулы ДНК целиком; все они устроены так: сначала готовится большое число небольших участков ДНК (клонируется молекула ДНК многократно и «разрезается» её в случайных местах), а потом читается каждый участок по отдельности.

Клонирование происходит либо просто выращиванием клеток в чашке Петри, либо (в случаях, когда это было бы слишком медленно или по каким-то причинам не получилось бы) при помощи так называемой полимеразной цепной реакции. В кратком и неточном изложении работает она примерно так: сначала ДНК денатурируют, т.е. разрушают водородные связи, получая отдельные нити. Затем к ДНК присоединяют так называемые праймеры; это короткие участки ДНК, к которым может присоединиться ДНК-полимераза – соединение, которое, собственно, и занимается копированием (репликацией) нити ДНК.

репликация ДНК или синтез ДНК

Рис. 5. Схематическое изображение процесса репликации ДНК: (1) Отстающая цепь (запаздывающая нить), (2) Ведущая цепь (лидирующая нить), (3) ДНК-полимераза α (Polα), (4) ДНК-лигаза, (5) РНК-праймер, (6) Праймаза, (7) Фрагмент Оказаки, (8) ДНК-полимераза δ (Polδ), (9) Хеликаза, (10) Однонитевые ДНК-связывающие белки, (11) Топоизомераза.


На следующем этапе полимераза копирует ДНК, после чего процесс можно повторять: после новой денатурации отдельных нитей будет уже вдвое больше, на третьем цикле – вчетверо, и так далее.

Все эти эффекты достигаются в основном с помощью изменений температуры смеси из ДНК, праймеров и полимеразы; для наших целей важно, что это достаточно точный процесс, и ошибки в нём редки, а на выходе получается большое число копий участков одной и той же ДНК. Разные методы секвенирования отличаются друг от друга не методами клонирования, а тем, как потом прочесть получившийся «суп» из многочисленных копий одной и той же ДНК.

 Секвенирование по Сэнгеру

Первым методом секвенирования, который учёные сумели применить для обработки целых геномов (в том числе генома человека), стало секвенирование по Сэнгеру (Sanger sequencing). Смысл таков: участок ДНК клонируется, после чего полученная смесь делится на четыре части. Каждая часть помещается в активную среду, где присутствуют:

  1. ДНК-полимераза, которая, как мы уже выяснили, занимается репликацией,
  2. праймеры, необходимые для начала процесса репликации,
  3. смесь всех четырёх нуклеотидов, которые будут служить «кирпичиками» для строительства новых копий ДНК,
  4. и, главное, специальные вариации одного из нуклеотидов (ровно один вид нуклеотидов для каждой части), которые прекращают дальнейшее копирование молекулы ДНК.

Собственно, процесс практически идентичен клонированию ДНК, с которым мы встретились в предыдущем разделе. Разница только в том, что теперь в один из нуклеотидов подмешаны «ложные» нуклеотиды; они могут образовать точно такую же водородную связь, но не могут продолжить свою нить дальше.

В результате в каждой части образуется большое число копий префиксов исследуемого участка ДНК, которые имеют разную длину, но всегда заканчиваются на одну и ту же букву – в зависимости от того, когда повезёт взять в процесс клонирования «ложный» нуклеотид. Например, в пробирке, где все последовательности заканчиваются на Т, из нашего примера выше получилась бы смесь из следующих префиксов:

ATGCAGAACAGACGATCAGCGACACTTTA (образец)

AT

ATGCAGAACAGACGAT

ATGCAGAACAGACGATCAGCGACACT

ATGCAGAACAGACGATCAGCGACACTT

ATGCAGAACAGACGATCAGCGACACTTT

Как теперь, получив такую смесь, «прочесть» геномную последовательность? Заметим, что в сумме в четырёх пробирках мы получили все возможные префиксы интересующего нас участка. Это значит, что если мы сможем просто измерить длину каждого префикса (точнее говоря, даже не измерить, а просто упорядочить, узнав, кто из них длиннее), то мы сможем узнать и последовательность тоже. Предположим, что мы увидели, что в пробирках лежат префиксы вот такой длины (по порядку, от самого лёгкого 1 до самого тяжёлого 10):

A

C

G

T

1, 5, 7, 8, 10

4, 9

3, 6

2

Очевидно, что эта последовательность начинается с А (т.к. самый лёгкий префикс, из одной буквы, заканчивается на A); дальше идёт C, дальше опять A, и так далее. В результате можно прочесть исходный участок: ATGCAGAACA.

А чтобы измерить длину, можно, например, измерить массу всех префиксов во всех пробирках. Чтобы измерить массу, можно, например (разные секвенаторы использовали разные процедуры, но суть от этого не меняется), ионизировать эти молекулы и отправить их наперегонки к заряженному электроду в специальном геле, который создаст трение и замедлит продвижение молекул – этот метод называется электрофорезом. При одинаковом заряде более тяжёлые молекулы будут двигаться медленнее, и в результате получится примерно такая картинка (рис. 6 - слева снизу). 

sekvenirovaniye_po_sengeru.pngВидно, что (в идеальном случае) можно просто прочесть последовательность нуклеотидов от самого лёгкого префикса (т.е. префикса из одной буквы) к самому тяжёлому.

Результаты и ошибки сэнгеровского секвенирования

На выходе из сэнгеровского секвенатора получаются короткие участки ДНК, так называемые риды (reads). Для биоинформатики принципиальны две вещи: во-первых, какой длины получаются риды, во-вторых, какие в них могут быть ошибки и как часто (разумеется, на свете нет ничего идеального).

Сэнгеровские риды по этим критериям очень хороши: получаются риды длиной около тысячи нуклеотидов, причём качество начинает заметно падать только после 700-800 нуклеотидов. Сам процесс секвенирования по Сэнгеру, с которым мы познакомились в предыдущем разделе, предопределяет и эффект падения качества (труднее отличить молекулу массой 700 от молекулы массой 701, чем массу 5 от массы 6), и другой неприятный эффект – если в геноме встречается длинная последовательность из одной и той же буквы (...AAAAAAAA...), трудно бывает точно определить, какой она длины – все промежуточные массы попадут в одну и ту же пробирку, некоторые из них могут не встретиться, некоторые - слиться друг с другом и т.д. Но всё же сэнгеровское секвенирование даёт отличные результаты с достаточно длинными ридами, которые потом относительно легко собирать. О том, как это делается, мы будем говорить в последующих текстах.

Именно при помощи сэнгеровского секвенирования был впервые расшифрован геном человека. Секвенирование по Сэнгеру применяется и сегодня, но его всё активнее вытесняют другие методы, и применяется оно всё реже. Кому же и почему оно уступило свои позиции?

Секвенаторы второго поколения: Illumina

Современные секвенаторы – это так называемые секвенаторы второго поколения (SGS, second generation sequencing). В них участки ДНК по-прежнему многократно клонируются, но процесс чтения устроен не так, как у Сэнгера. Существует много разных методов, отличающихся довольно существенно, поэтому мы рассмотрим только один из них, один из самых популярных на сегодня – секвенирование по методу Solexa (ныне Illumina; в смене названия не нужно искать глубокий смысл, просто одна компания купила другую).

фотография, порождённая секвенатором Illumina

Рис.7. Типичный пример фотографии, порождённой секвенатором Illumina

Процесс секвенирования Illumina проиллюстрирован на рисунке 7; кроме того, можно посмотреть один из нескольких существующих видеороликов с анимацией этого процесса – в данном случае, действительно, лучше один раз увидеть, чем сто раз прочесть текст.

Однако краткие комментарии тоже пригодятся; вот как происходит процесс секвенирования по методу Illumina.

  1. Копии ДНК разрезаются в случайных местах на большое число небольших участков.
  2. К каждому участку с двух сторон добавляют специальные адаптеры – заранее известные небольшие последовательности нуклеотидов.
  3. Затем полученная смесь помещается на специально подготовленную подложку, из которой в виде решётки «растут» участки ДНК, комплементарные адаптерам. Таким образом, они способны «привязать» снабжённые адаптерами участки ДНК к этим местам. Кроме того, адаптеры также содержат праймеры, участки, к которым может присоединиться ДНК-полимераза, которая осуществляет репликацию ДНК.
  4. На шаге 3 разные участки ДНК случайным образом «присасываются» к разным местам в решётке. Теперь мы многократно клонируем каждый участок вокруг своего места, получая тем самым целые «кластеры». Этот процесс известен как bridge amplification, потому что ДНК привязывается к подложке сразу двумя концами; о том, что это означает для биоинформатики, мы поговорим в следующем разделе.
  5. Участки ДНК денатурируют (разрушают водородные связи) – в результате из узлов решётки на подложке «растут» разные участки ДНК, состоящие из одной нити.
  6. Подложка помещается в раствор, содержащий ДНК-полимеразу и специально помеченные нуклеотиды, которые сразу же заканчивают процесс репликации (если помните, в сэнгеровском секвенировании такие тоже применялись). Они присоединяются к ДНК, по одному к каждому участку. Соответственно, к каждому участку присоединяется та «буква», с комплементарной к которой он начинается.
  7. Затем «лишние» нуклеотиды смывают, а метки оставшихся считывают; в технологии Illumina это флуоресцентные метки, которые можно заставить светиться разным цветом и сфотографировать. Именно на этом шаге мы и узнаём, с какой буквы начинается каждый «кластер участков» ДНК.
  8. После этого с уже связанных нуклеотидов химически «срезается» радикал, который мешал дальнейшей надстройке молекулы ДНК. Теперь можно вернуться на шаг 6 и повторить процесс, читая на втором цикле вторые буквы в каждой последовательности, и так далее.

В результате на каждом цикле мы прочитываем одновременно очень большое число нуклеотидов из разных последовательностей. Но за это приходится платить тем, что участки ДНК, которые мы можем прочесть, оказываются гораздо короче, чем в случае секвенирования по Сэнгеру – риды Illumina обычно получаются длиной около 100 нуклеотидов.

Парные риды и постановка задачи

Есть ещё одна важная деталь. Участки ДНК «присасываются» к подложке обоими концами, причём мы можем узнать, какие последовательности соответствуют одному и тому же участку. Это значит, что в реальности мы читаем один и тот же участок, длина которого нам приблизительно известна, сразу с двух сторон. В результате данные получаются примерно такого вида:

ATGCAGA???????????????CACTTTA,

причём расстояние между известными строчками (число вопросительных знаков) известно не совсем точно. В зависимости от технологии можно получить как очень длинные неизвестные фрагменты (около 1000 нуклеотидов), «обрамлённые» двумя ридами длины 100, так и короткие фрагменты, в которых неизвестны буквально два-три десятка нуклеотидов между ридами. И те, и другие могут очень помочь в сборке, и об этом мы тоже будем говорить в следующих сериях.

Итак, теперь мы можем формально поставить задачу сборки геномов. Она звучит так: по большому числу подстрок небольшой длины восстановить исходную длинную строку в алфавите из букв A, C, G, T. В случае секвенирования по методу Illumina – по большому числу пар коротких подстрок, разделённых в исходной строке приблизительно известным расстоянием. Поставив эту задачу, мы можем забыть про биологию, химию и медицину: перед нами чисто алгоритмическая задача. Однако прежде чем перейти к математике, сделаем ещё несколько замечаний.

Ошибки и показатели качества в секвенаторах второго поколения

Как мы уже знаем, секвенирование всегда содержит ошибки. В секвенаторах Illumina и аналогичных ошибки, как правило, происходят на фазе, когда нужно распознать помеченные нуклеотиды, т.е. понять, каким цветом и с какой силой светятся кластеры из многократно клонированных участков ДНК. На рисунке – типичный пример такой фотографии, порождённой секвенатором Illumina.

Проблема здесь заключается в том, что из-за неидеальности остальных этапов процесса кластеры никогда не светятся только одним цветом; это всегда смесь всех четырёх цветов с той или иной интенсивностью. Нужно выделить наиболее интенсивную компоненту и оценить, насколько вероятна ошибка в этой букве; эта задача называется base calling (распознавание нуклеотидов). Base calling – это целая наука, в подробности которой мы сейчас вдаваться не будем.

Для нас сейчас важно, что в результате каждому нуклеотиду каждого рида секвенатор ставит в соответствие вероятность того, что этот нуклеотид был распознан правильно. Эти вероятности тоже можно использовать при сборке, и секвенаторы выдают их вместе с собственно ридами.

В итоге типичный рид в так называемом fastq-формате, стандартном для секвенаторов второго поколения, выглядит примерно так:

@EAS20_8_6_1_3_25/1
GCAAAAAACTTACCCCGGA.....GCACCAACTCCCNNNCGTAGNNNNNNTATGTTNNNNG
+EAS20_8_6_1_3_25/1
HHHHHHHGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHEGHHHHGHHGHEFD?A=A&FFBB>&::===@&@E@E>A#########################

Первая и третья строки содержат имя рида; вторая строка – сама последовательность нуклеотидов. Обратим внимание, что среди букв A, C, G, T встречаются и буквы N – это значит, что секвенатор не смог однозначно определить, какой здесь был нуклеотид, и сдался. А четвёртая строка кодирует в логарифмическом масштабе вероятности того, что тот или иной нуклеотид распознан правильно; например, H здесь соответствует вероятности ошибки около одной десятитысячной. Как правило, качество ухудшается к концу рида; в нашем примере, как видите, хвост рида и вовсе не удалось сколь-нибудь надёжно прочитать.

В заключение стоит отметить, что есть и другие секвенаторы второго поколения, с другими свойствами. Человеческая мысль не стоит на месте: методы секвенирования постоянно улучшаются. Однако практически все современные методы выдают относительно короткие риды, от 100 до 400 нуклеотидов. Невероятно, но «старые» секвенаторы (первого поколения, сэнгеровские) выдают значительно более подходящие для сборки данные, чем «новые» (второго поколения) и это в основном выражается в длине ридов (reads), тех участков ДНК, которые удаётся последовательно прочесть, и которые, собственно, и нужно собрать в одну большую строчку. Секвенаторы первого поколения выдавали риды длиной более пятисот нуклеотидов, обычно около тысячи.

К разделу: ДНК прокариот и эукариот

См. дополнительно:

Будьте здоровы!

 

ССЫЛКИ К РАЗДЕЛУ О ПРЕПАРАТАХ ПРОБИОТИКАХ

  1. ПРОБИОТИКИ
  2. ДОМАШНИЕ ЗАКВАСКИ
  3. БИФИКАРДИО
  4. КОНЦЕНТРАТ БИФИДОБАКТЕРИЙ ЖИДКИЙ
  5. ПРОПИОНИКС
  6. ЙОДПРОПИОНИКС
  7. СЕЛЕНПРОПИОНИКС
  8. БИФИДОБАКТЕРИИ
  9. ПРОПИОНОВОКИСЛЫЕ БАКТЕРИИ
  10. ПРОБИОТИКИ И ПРЕБИОТИКИ
  11. СИНБИОТИКИ
  12. АНТИОКСИДАНТНЫЕ СВОЙСТВА
  13. АНТИОКСИДАНТНЫЕ ФЕРМЕНТЫ
  14. АНТИМУТАГЕННАЯ АКТИВНОСТЬ
  15. МИКРОФЛОРА КИШЕЧНОГО ТРАКТА
  16. МИКРОФЛОРА И ФУНКЦИИ МОЗГА
  17. ПРОБИОТИКИ И ХОЛЕСТЕРИН
  18. ПРОБИОТИКИ ПРОТИВ ОЖИРЕНИЯ
  19. МИКРОФЛОРА И САХАРНЫЙ ДИАБЕТ
  20. ПРОБИОТИКИ и ИММУНИТЕТ
  21. ПРОБИОТИКИ и ГРУДНЫЕ ДЕТИ
  22. ДИСБАКТЕРИОЗ
  23. МИКРОЭЛЕМЕНТНЫЙ СОСТАВ
  24. ПРОБИОТИКИ С ПНЖК
  25. ВИТАМИННЫЙ СИНТЕЗ
  26. АМИНОКИСЛОТНЫЙ СИНТЕЗ
  27. АНТИМИКРОБНЫЕ СВОЙСТВА
  28. СИНТЕЗ ЛЕТУЧИХ ЖИРНЫХ КИСЛОТ
  29. СИНТЕЗ БАКТЕРИОЦИНОВ
  30. ФУНКЦИОНАЛЬНОЕ ПИТАНИЕ
  31. АЛИМЕНТАРНЫЕ ЗАБОЛЕВАНИЯ
  32. ПРОБИОТИКИ ДЛЯ СПОРТСМЕНОВ
  33. ПРОИЗВОДСТВО ПРОБИОТИКОВ
  34. ЗАКВАСКИ ДЛЯ ПИЩЕВОЙ ПРОМЫШЛЕННОСТИ
  35. НОВОСТИ