Функция, определенная в пространстве Ω строк символов фиксированного алфавита A, по необходимости является разреженной (sparse). Причём степень разреженности тем больше, чем выше сложность функции.
Прежде всего заметим, что функция определена в нашем случае на множестве дискретных переменных.
Функциональная сложность переменной (строки s ∈ Ω) измеряется количеством функциональной информации в строке:
If(s) = —log2(|Tf|/|Ω(A)|),
где:
- Ω(A) -- пространство возможных строк символов алфавита А.
- Tf -- целевое подпространство, включающее лишь строки, доставляющие функцию f.
- |X| -- число элементов множества Х.
Почему функция, определённая в таком пространстве, по необходимости разрежена?
Проиллюстрируем это на простом примере, который мы позаимствуем из замечательной лекции Стивена Майера.
Велосипедный замок позволяет установить кодовую комбинацию цифр, которая его открывает.
Итак, функция кодовой комбинации цифр -- открывать замок. В данном случае:
- А = {0,1,...,9}, |A| = 10.
- |Ω| = 104.
- |Tf| = 1.
- If = 4 log210 ≈ 13.3 бит.
- |Ω| = 105.
- |Tf| = 1 (число функциональных комбинаций не изменилось).
- If = 5 log210 ≈ 16.6 бит (количество функциональной информации возросло).
В случае сложных функций размер |Tf| целевого подпространства (то есть фактически число синонимов функциональной строки s) с ростом длины строки L растёт медленнее, чем взрывается размер |Ω| пространства возможных строк:
O(|Tf(L)|) < O(|Ω(L)|).
Попросту говоря, с увеличением длины строки экспоненциально растет число нефункциональных строк. Почему, собственно, в распознавании дизайна и интересны сложные функции.
Кстати, Douglas Axe во время оно показал, что для белкового домена средних размеров (если не ошибаюсь, ~150 АА) отдельно взятого белкового семейства (beta-lactamase), редкость функциональных строк оценивается отношением 1 функциональная строка на каждые 1077. Причём максимальное число организмов, когда-либо живших за всю историю биосферы, в предположениях, благоприятных для эволюционной парадигмы, Майер оценивает как 1040 ≈ 2133 (более оптимистичная для эволюции оценка GPuccio в 2140 организмов отличается в 27=128 раз). Если использовать оценку Майера, то получается, что доля состояний, которые теоретически могли быть просмотрены эволюцией, за всю её славную и неповторимую историю, в процессе поиска функциональной аминокислотной строки для фермента beta-lactamase, составляет 1040/1077 = 10-37. Для осознания масштаба стоящих перед эволюцией задач надо иметь в виду, что размер протеома одноклеточной E.Coli оценивается в 1620-2260 различных типов белков. Как-то многовато для незатейливой схемы RV+NS...