mns2012

Недавно я попытался в оффлайне изложить основную идею распознавания дизайна по анализу конфигурации частиц материи пост-фактум (intelligent design detection). У народа нет понимания основного тезиса, что если речь идёт о выводе о дизайне по сложной функции, то имеется в виду не просто сложность, а специфическая сложность, то есть сложность + спецификация, иначе говоря, сложность, которую можно кратко описать (например, достаточно сложная функция). Неужели это так тяжело понять?!

Ту же самую ошибку делают всевозможные популяризаторы науки, борцы против мракобесия и за чистоту научных рядов. Правда, если обывателю некомпетентность в данном вопросе простительна, то популяризатору нет.

С точки зрения информации Шеннона, "сложный" и "маловероятный" -- это одно и то же: сложные конфигурации частиц материи характеризуются малой вероятностью и поэтому сообщают наблюдателю сравнительно большое количество информации. Говоря иначе, это тот объём информации, который необходим для хранения описания конфигурации материи на носителе (при условии отсутствия потери информации).

Проиллюстрируем это на простом примере.Серия из 20 бросков честной (сбалансированной) монеты характеризуется вероятностью (1/2)²⁰ = 2^-20 и требует для своего представления 20 бит, тогда как вероятность реализации серии из 100 бросков равна 2^-100, а требуемый для её представления объем памяти составляет 100 бит.

Вероятность реализации конфигурации с и количество информации Шеннона, которую получает наблюдатель при реализации с, связаны друг с дружкой логарифмированием по основанию 2:

Shannon_Information(с) = −log₂(Probability(с)).

Однако сложность -- это только один из аспектов конфигурации материи, когда мы говорим о распознавании дизайна. Другим чрезвычайно важным для нас свойством конфигураций материи является специфичность.

Чтобы прояснить, что это такое, рассмотрим две серии бросков честной монеты, причём обе имеют одинаковую длину, равную 20. Будем считать для определенности, что 1 соответствует выпадению орла, 0 -- решки:

серия А:	1	0	0	1	1	0	1	0	0	1	0	1	1	1	1	0	0	1	0	1
серия Б:	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1

Обе серии характеризуются одной и той же вероятностью: 2^-20 и требуют для своего представления по 20 бит. Однако серия А нерегулярна и, по всей видимости*, неспецифична, а серия Б регулярна и специфична, так как является 20-кратным выпадением орла.
-------------
* Разумеется, распознавание дизайна работает только с тем, что есть на данный момент, исходя из чего мы делаем предположения о возможных причинах наблюдаемого. Поэтому никто не может исключить, например, возможность того, что то, что представляется исследователю как нечто случайное или регулярное, на самом деле имело интеллектуальное происхождение. В этом случае рассматриваемый нами метод выдаст ошибочный ложно-отрицательный результат (так называемая ошибка второго рода: дизайн не распознаётся как таковой). И это абсолютно нормально. Практических методов распознавания со 100% точностью не существует. Речь может идти о более или менее точных методах.

В теории сложности алгоритмов демонстрируется [хорошо бы ссылку сюда на текст по теории сложности, есть МФТИ-шный учебник], что:

Любую конфигурацию частиц материи или объект реального мира можно описать на некотором универсальном языке и работать со строками.

Мерой специфичности конфигурации частиц материи является её колмогоровская сложность, то есть длина алгоритма, вычисляющего описание конфигурации.

Билл Дембски обосновывает измерение специфической сложности конфигурации c частиц материи как разницы между количеством информации Шеннона, с одной стороны, и колмогоровской сложностью конфигурации c, с другой:

Specified_Complexity(c) = Shannon_Information(c) − Kolmogorov_Complexity(c).

Количество шенноновской информации в конфигурации c можно посчитать, применяя формулу информационной энтропии. Несмотря на то, что функция Kolmogorov_Complexity(c) не является вычислимой, её можно оценить длиной описания c на некотором фиксированном языке L: |Description(L, c)|:

Kolmogorov_Complexity(c) ≤ |Description(L, c)|.

Тогда:

Specified_Complexity(c) ≥ Shannon_Information(c) − |Description(L, c)|.

Как уже отмечалось выше, под описанием можно понимать алгоритм, вычисляющий представление c в виде строки символов некоторого алфавита. Алгоритмы могут быть записаны на том или ином формальном языке (например, на языке программирования), поэтому алгоритм -- это также строка символов. В теории показывается, что колмогоровская сложность практически не зависит от языка описания, а оптимальные по длине имплементации алгоритмов на разных языках пренебрежимо мало отличаются между собой. Есть и ещё теоретические тонкости: например, устанавливается, каким должен быть язык L, чтобы исключить из рассмотрения описания одной и той же конфигурации с, различающиеся по длине и включающиеся одно в другом (беспрефиксный код), и т.д.

Замечания:

Относительно простые дизайны не могут быть распознаны только по значению специфической сложности; в этом случае для распознавания дизайна требуются дополнительные данные.

Сложные случайные строки имеют и относительно большую колмогоровскую сложность. Регулярные строки характеризуются относительно малой сложностью по Шеннону и малой колмогоровской сложностью. Сложные и специфические строки, интересующие нас, находятся между двумя этими крайностями: такие строки имеют высокую информационную сложность (маловероятны) и в то же время допускают существование относительно коротких описаний; таким образом разность значений информации Шеннона и колмогоровской сложности у специфически сложных строк достигает максимума.

Значение Specified_Complexity(с) для произвольной конфигурации может быть отрицательным. Однако в случае достаточно специфически сложных строк возрастание колмогоровской сложности по сравнению с её минимальными значениями, соответствующими регулярным строкам, перекрывается возрастанием информационной сложности. Поэтому специфически сложные строки характеризуются сравнительно большими положительными значениями функции Specified_Complexity. Слова "сравнительно большими" получают конкретное содержание в контексте вероятностных ресурсов системы, где проявляется исследуемая конфигурация частиц вещества.

Вероятностные ресурсы системы c дискретными состояниями представляют собой множество дискретных состояний системы.

Здесь, как и везде, где идёт речь о распознавании чего-либо пост-фактум, имеется в виду статистически оправданный вывод о том, что наблюдаемая конфигурация представляет собой дизайн. Например, в контексте обсуждений статистической значимости по Р. Фишеру, гипотеза о дизайне представляет собой конкретное распределение характеристики выборки конфигураций, которое позволяет или не позволяет говорить об интеллектуальном происхождении с. Относительно большие значения Specified_Complexity(с) дают статистическое основание ожидать, что с представляет собой дизайн.

В заключение, давайте разовьем приведенный выше пример. Предположим, что в нашем распоряжении находится строка символов булева алфавита, являющаяся двоичным представлением числа π с точностью до N знаков после запятой. В этом случае строка является сложной и в то же время имеет короткое описание: π. При отсутствии данных о естественных процессах, порождающих представления числа π, у нас есть серьезные статистические основания заключить об интеллектуальном происхождении строки: чем больше N, тем меньше вероятность ошибки первого рода (false positive). По превышении N некоторого значения вероятность ошибки становится пренебрежимо малой.