Только четыре нуклеотида
Группа физиков из ФИАН, МФТИ и МГУ разработала новый метод сравнения двух молекул РНК. Его неожиданным следствием стала гипотеза о статистическом механизме выделенности используемого природой «четырехбуквенного нуклеотидного алфавита».
Для эволюционной биологии вопрос сравнения ДНК и РНК последовательностей
- один из ключевых, в частности, он позволяет судить о том, насколько далеко
в эволюционном смысле разошлись друг от друга два рассматриваемых гена, и
какие гены могут являться их общими предками. И если вопрос сравнения двух
последовательностей молекул дезоксирибонуклеиновой кислоты (ДНК) с
алгоритмической точки зрения не вызывает принципиальных трудностей, то
задача построения алгоритма сравнения молекул рибонуклеиновой кислоты (РНК)
наталкивается на серьезные препятствия и несмотря на значительный прогресс в
этой области, до сих пор полностью не решена. Дело в том, что молекулы РНК
содержат нетривиальную вторичную структуру типа "клеверного листа" или
"кактуса". Сергей Нечаев (ФИАН), Михаил Тамм (МГУ) и Ольга Вальба (МФТИ) предлагают
метод сравнения РНК, учитывающий как
порядок следования нуклеотидов, так и комбинаторику, обусловленную тем, что
молекула РНК может образовать разные кактусоподобные структуры.
"Молекулы ДНК и РНК - это нерегулярные последовательности, образованные
четырьмя типами "букв" - нуклеотидов. Задача сравнения или, как говорят,
"выравнивания" последовательностей молекул ДНК, заключается в нахождении
максимальной общей подпоследовательности двух молекул. Эта
подпоследовательность не обязательно состоит из идущих непосредственно друг
за другом букв, они могут идти и с пробелами - делециями. Задачу о сравнении
двух последовательностей РНК мы свели к задаче о вычислении свободной
энергии комплекса двух взаимодействующих неоднородных цепей, каждая из которых может образовывать кактусоподобную структуру",
- рассказывает руководитель работы, доктор физ.-мат.наук Сергей Нечаев.
"Представьте себе, - поясняет Нечаев, - что в эксперименте возникла
необходимость предсказать вторичную структуру синтезированной молекулы РНК
по последовательности нуклеотидов. Наш алгоритм позволяет предсказать
оптимальную с точки зрения статистической физики вторичную структуру
молекулы РНК, которая будет соответствовать минимуму свободной энергии. При
этом мы старались по возможности оставаться в рамках статистической физики и
избегать эвристических соображений, полученных лишь на основе анализа
экспериментальных данных".
Следствием разработанного подхода стало довольно неожиданное наблюдение.
Оказалось, что если не ограничиваться только четырьмя типами нуклеотидов
(аденин, цитозин, гуанин и урацил), присутствующими в простейшей модели РНК
со случайной первичной структурой, а рассмотреть гипотетический "алфавит" с произвольным
числом "букв", с, то "выравнивание" молекул РНК при с ≤ 4 и при с > 4
происходит по-разному.
"Алфавит, который использует природа, - говорит Сергей Нечаев, - выделен
тем, что при числе букв, меньшем или равном четырем, укладка очень длинной
молекулы РНК практически не содержит пропусков, то есть их доля стремится к
нулю, и каждому нуклеотиду найдется комплиментарный. В случае же, когда
число букв больше четырех, в очень длинной цепи РНК всегда присутствует
большое количество пропусков (их число сравнимо с длиной всей цепочки).
Число "четыре" является пограничным: это максимальное число букв, при
котором очень длинная случайная РНК может образовывать "совершенную"
вторичную структуру, то есть у каждого нуклеотида в последовательности
найдется комплиментарный".
Вопрос о том, почему природа использует именно 4 типа нуклеотидов, -
один из важнейших в биологии и генной инженерии. Как предполагают
исследователи из ФИАН, МГУ и МФТИ, с точки зрения статистической физики
случайных гетерополимеров со сложной иерархической вторичной структурой типа
РНК, число "четыре" является статистически выделенным среди всех возможных
алфавитов при изучении проблемы выравнивания. Для "линейной" молекулы ДНК,
где количество нуклеотидов также равно четырем (аденозин, цитидин, гуанозин
и тимидин), оно уже ничем не выделено. Это наблюдение может рассматриваться
как косвенный аргумент в пользу гипотезы "РНК-мира", согласно которой на
начальном этапе возникновение жизни на Земли существовали только РНК, а ДНК
появились уже в результате их эволюции.
18 октября 2011