Вероятностные ресурсы на простом примере
Nov. 24th, 2024 07:49 amЗачем вообще рассматривать вероятностные ресурсы? Это может быть интересно, например, с точки зрения оценки статистической значимости последовательного закрепления в популяции организмов набора мутаций, необходимых для эволюционного формирования новой функции. Можно задаться вопросом: на что способна популяция как случайный генератор мутаций с отбором? Понятно, что чем больше популяция (генетический пул), тем большими вероятностными ресурсами она обладает. На величину вероятностных ресурсов популяции влияет также скорость размножения, время жизни популяции и др. факторы.
Модельный пример: последовательные броски монеты
Рассмотрим самый простой модельный пример. Бросаем сбалансированную честную монетку фиксированное число раз и смотрим, что выпало. При этом не будем учитывать всякую экзотику, считая, что каждый бросок завершается штатно либо орлом (H), либо решкой (T). Какова вероятность выпадения двух орлов подряд: HH?
Пусть нам дали возможность сделать два броска. Вот то, что может выпасть теоретически: HH, HT, TH, TT. Из всего набора возможных событий нас интересует только один сценарий: HH. Таким образом, вероятность выпадения двух орлов подряд при условии, что в нашем распоряжении всего 2 броска, составляет 1/4.
Понятно, что минимум числа бросков для получения двух орлов подряд, равен двум. Но интересен вопрос: как меняется вероятность реализации фиксированной последовательности символов с увеличением числа бросков, то есть когда мы увеличиваем вероятностные ресурсы нашей системы? Ясно, что вероятность будет возрастать. Но насколько быстрым будет рост вероятности? Давайте посмотрим.
Условимся, что теперь можно сделать 3 броска. Всё, что может выпасть теоретически включает следующие исходы: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Выпадение по кр. мере двух орлов подряд HH происходит в трёх случаях из восьми: HHH, HHT, THH. Следовательно, искомая вероятность составляет 3/8. Главный промежуточный вывод: вероятность требуемого исхода возросла с увеличением числа бросков. Всё, как и ожидалось.
Давайте теперь обобщим задачу. Будем считать, что можно сделать k > 2 бросков. Какова вероятность выпадения HH хотя бы один раз?
Эта вероятность равна:
p = Ak / |Ф|k = Ak / 2k,
где:
- Ak: число последовательностей, содержащих заданную последовательность символов, в данном случае HH.
- Ф: некоторый фиксированный алфавит (набор символов); в данном случае Ф = {H, T}.
- |Ф|: размер (мощность) алфавита, в данном случае |Ф| = 2.
На графике ниже для трёх различных последовательностей символов {HH, HHH, HHHH} показано, как изменяется вероятность появления последовательности (ось Y) с ростом вероятностных ресурсов, или числа бросков монеты (ось X).

- Во-первых, с увеличением числа бросков вероятность реализации заданной последовательности символов возрастает. Это ожидаемый результат. Однако следует иметь в виду, что в реальности вероятностные ресурсы ограничены сверху. Мы не можем бесконечно увеличивать число бросков.
- Во-вторых, вероятность реализации длинных последовательностей возрастает медленнее, чем коротких. В принципе, мы тоже никакой Америки здесь не открыли. Но и тут надо помнить, что в случае функциональной строки для того, чтобы отбор её заметил, необходимо, чтобы она:
- Оказывала влияние на фитнес-функцию, на что способна не всякая функциональная строка.
- Присутствовал целиком. Не полностью "прописанные" функции не могут быть отобраны. Автомашина без нужного числа свеч зажигания или без трансмиссии никуда не поедет. Важно также помнить, что сложные функции кодируются достаточно длинными строками, вероятность которых при условии ограниченности ресурсов становится неприемлемо малой. В таком случае нет возможности осуществить столько бросков условной монеты, чтобы считать вероятность закрепления в популяции мутаций, соответствующих новой функции, статистически значимым событием. В рассматриваемой модели, с одной стороны, бросков должно быть достаточно, так как функция вероятности реализации строки длиной L не определена для числа бросков < L. На представленном графике видно, что с ростом длины строки, начальные точки кривых смещаются вправо по оси X. С другой стороны, число бросков N ограничено сверху, и при фиксированном N с увеличением длины строки наступает такой момент, когда вероятность их реализации становится неприемлемо малой. На графике видно, что для фиксированного числа бросков вероятность реализации строк уменьшается по мере увеличения их длины. Для N=40 значения вероятностей таковы: HH выпадет с вероятностью, практически равной 1.0, ННН -- с вероятностью около 0.95, а HHHH -- с вероятностью всего 0.75. Существует множество биологических функций, сложность которых, в нашем контексте моделируемая длиной строки, настолько высока, что они становятся практически недостижимыми для синтетической эволюционной модели, оперирующей случайными мутациями и отбором. Американский биохимик Майкл Бихи назвал этот феномен границей практических возможностей эволюции (см. Michael Behe "The edge of evolution"). Для таких функций вероятность появления функциональной строки с увеличением числа бросков монеты будет описываться настолько пологой, медленно возрастающей кривой, что на нашем графике на интервале практически имеющихся ресурсов эта кривая будет сливаться с осью X.
В заключение отмечу, что в модельном примере я мог бы рассмотреть и другие строки и прийти к тем же выводам, так как моя модель не учитывает функциональности строк. В биологическом контексте сложно-функциональные строки чрезвычайно редки. Биохимик Дуглас Экс приводит пример функции, редкость которой соответствует 1 функциональной последовательности на каждые 1077.
Чем выше сложность функции, тем она более редка, потому что с возрастанием сложности функции экспоненциально возрастает число нефункциональных строк с "поломанной" функцией. Это легко проиллюстрировать на примере цифрового замка. Замок откроется только если набран ключ -- единственная комбинация цифр. Если длина ключа равна 4, то число нефункциональных строк составляет 104 − 1, а если длина ключа равна 5, число нефункциональных строк 105 − 1.