сайты - меню - вход - но­во­сти


Задания
Версия для печати и копирования в MS Word

Пусть в не­ко­то­ром мире на­след­ствен­ная ин­фор­ма­ция за­пи­сы­ва­ет­ся в ге­но­ме не при по­мо­щи клас­си­че­ско­го ал­фа­ви­та из че­ты­рех нук­лео­тид­ных букв (А, G, T, C), а при по­мо­щи рас­ши­рен­но­го ал­фа­ви­та из шести  — А, G, T, C, Х и Y. При этом бел­ко­вые мо­ле­ку­лы, как и на Земле, стро­ят­ся из 20 ами­но­кис­лот.

1.  Какое ми­ни­маль­ное число нук­лео­тид­ных букв по­тре­бу­ет­ся в ко­до­не рас­ши­рен­но­го ал­фа­ви­та, чтобы он мог ко­ди­ро­вать все ами­но­кис­ло­ты? Как от­ли­ча­ет­ся из­бы­точ­ность такой ко­ди­ров­ки от из­бы­точ­но­сти ко­ди­ров­ки для клас­си­че­ско­го ал­фа­ви­та?

2.  Во сколь­ко раз от­ли­ча­ет­ся объем ин­фор­ма­ции, ко­то­рая может быть за­ко­ди­ро­ва­на в по­сле­до­ва­тель­но­сти нук­лео­ти­дов фик­си­ро­ван­ной длины при ис­поль­зо­ва­нии рас­ши­рен­но­го и клас­си­че­ско­го ал­фа­ви­та?

(Кодон  — еди­ни­ца ге­не­ти­че­ско­го кода, ко­ди­ру­ет одну ами­но­кис­ло­ту. Из­бы­точ­но­стью ко­ди­ров­ки счи­тать от­но­ше­ние числа всех ва­ри­ан­тов зна­че­ний од­но­го ко­до­на, к числу ва­ри­ан­тов, ко­то­рые он дол­жен за­шиф­ро­вать).

Спрятать решение

Ре­ше­ние.

1.  Из­бы­точ­ность при­род­но­го кода  дробь: чис­ли­тель: 4 в кубе , зна­ме­на­тель: 20 конец дроби = дробь: чис­ли­тель: 64, зна­ме­на­тель: 20 конец дроби = 3,2 (число ва­ри­ан­тов трех­бук­вен­но­го слова, за­пи­сан­но­го ал­фа­ви­том из че­ты­рех букв, от­не­сен­ное к числу шиф­ру­е­мых ами­но­кис­лот).

Для того, чтобы за­шиф­ро­вать 20 ами­но­кис­лот рас­ши­рен­ным кодом, хва­тит всего двух букв, по­сколь­ку число ва­ри­ан­тов двух­бук­вен­но­го слова, за­пи­сан­но­го ал­фа­ви­том из шести букв, боль­ше, чем число ко­ди­ру­е­мых ами­но­кис­лот: 6 в квад­ра­те = 36 боль­ше 20. При этом из­бы­точ­ность со­став­ля­ет  дробь: чис­ли­тель: 36, зна­ме­на­тель: 20 конец дроби = 1,8, что в  дробь: чис­ли­тель: 3,2, зна­ме­на­тель: 1,8 конец дроби \approx 1,8 раз мень­ше, чем для при­род­но­го кода.

2.  При стан­дарт­ном спо­со­бе ко­ди­ро­ва­ния ис­поль­зу­ют­ся 4 нук­лео­тид­ных буквы, то есть, для про­из­воль­ной по­сле­до­ва­тель­но­сти дли­ной n букв воз­мож­но 4n ва­ри­ан­тов тек­ста, что от­ве­ча­ет объ­е­му ин­фор­ма­ции, рав­но­му  I_4 = ло­га­рифм по ос­но­ва­нию 2 4 в сте­пе­ни левая круг­лая скоб­ка n пра­вая круг­лая скоб­ка = 2 n бит ин­фор­ма­ции.

В то же время, при за­пи­си по­сле­до­ва­тель­но­сти такой же длины с ис­поль­зо­ва­ни­ем рас­ши­рен­но­го ал­фа­ви­та из шести нук­лео­ти­дов мы по­лу­ча­ем один из 6n ва­ри­ан­тов. B этом слу­чае объем ин­фор­ма­ции равен

I_6 = ло­га­рифм по ос­но­ва­нию 2 6 в сте­пе­ни n = ло­га­рифм по ос­но­ва­нию 2 2 в сте­пе­ни n 3 в сте­пе­ни n = n плюс n ло­га­рифм по ос­но­ва­нию 2 3 \approx 2,58495 n \approx 2,58 n.

Тогда уве­ли­че­ние объ­е­ма за­пи­сан­ной ин­фор­ма­ции будет в  дробь: чис­ли­тель: I_6, зна­ме­на­тель: I_4 конец дроби = дробь: чис­ли­тель: 2,58 n, зна­ме­на­тель: 2n конец дроби = 1,29 раз.