Пусть в некотором мире наследственная информация записывается в геноме не при помощи классического алфавита из четырех нуклеотидных букв (А, G, T, C), а при помощи расширенного алфавита из шести — А, G, T, C, Х и Y. При этом белковые молекулы, как и на Земле, строятся из 20 аминокислот.
1. Какое минимальное число нуклеотидных букв потребуется в кодоне расширенного алфавита, чтобы он мог кодировать все аминокислоты? Как отличается избыточность такой кодировки от избыточности кодировки для классического алфавита?
2. Во сколько раз отличается объем информации, которая может быть закодирована в последовательности нуклеотидов фиксированной длины при использовании расширенного и классического алфавита?
(Кодон — единица генетического кода, кодирует одну аминокислоту. Избыточностью кодировки считать отношение числа всех вариантов значений одного кодона, к числу вариантов, которые он должен зашифровать).
1. Избыточность природного кода (число вариантов трехбуквенного слова, записанного алфавитом из четырех букв, отнесенное к числу шифруемых аминокислот).
Для того, чтобы зашифровать 20 аминокислот расширенным кодом, хватит всего двух букв, поскольку число вариантов двухбуквенного слова, записанного алфавитом из шести букв, больше, чем число кодируемых аминокислот: При этом избыточность составляет что в раз меньше, чем для природного кода.
2. При стандартном способе кодирования используются 4 нуклеотидных буквы, то есть, для произвольной последовательности длиной n букв возможно 4n вариантов текста, что отвечает объему информации, равному бит информации.
В то же время, при записи последовательности такой же длины с использованием расширенного алфавита из шести нуклеотидов мы получаем один из 6n вариантов. B этом случае объем информации равен
Тогда увеличение объема записанной информации будет в