mns2012

В этой записи, оканчивающей цикл, посвящённый распознаванию дизайна, мы обсудим результаты нашего исследования и подведём итоги.

Предыдущие записи:

Обсуждение

Из Таблицы 3 в предыдущей записи видно следующее:

Машинный код является алгоритмически простым (относительно низкое значение колмогоровской сложности K), поскольку длина программы — фиксированная величина, не зависящая от размера данных (размер файла изображения, подаваемый на вход программе, может быть очень большим). В оценку длины кратчайшей программы, реализующей алгоритм SHA-256, компилятор добавляет слагаемое C_к, не зависящее от данных; это накладные вычислительные расходы на оптимизацию кода, исполняемого операционной системой. Колмогоровская сложность программного кода низкая, хотя сам программный код как последовательность символов статистически сложен, что видно по относительно высоким значениям энтропии Шеннона.

Заметим также, что энтропия машинного кода выше, чем кода на языке С. Этого и следовало ожидать, поскольку машинный код должен иметь меньше структурной избыточности, чем языки программирования, предназначенные для чтения программ человеком.

Следует также обратить внимание на то, что энтропия программного кода вне зависимости от языка реализации не достигает максимума: любой язык неизбежно несёт в себе избыточность и неоднозначность. Это скажет любой лингвист. Мы не ставили себе целью доказать это в общем случае. Мы это можем лишь подтвердить, основываясь на результатах нашего исследования.

Даже относительно несложный алгоритм вычисления хэша для файла данных характеризуется одновременно относительно высоким значением энтропии Шеннона и относительно низким значением колмогоровской сложности, и, таким образом, проходит тест на дизайн.

В то же самое время, наши данные не классифицируются как дизайн. Это также ожидаемый результат, поскольку данные в обоих файлах представляют собой результаты случайных процессов: растекания капель краски по бумаге и графический шум в чёрно-белом диапазоне.

В природе случайность проявляется постоянно. Постоянно проявляется и специфичность (регулярность). Правда, в естественно генерируемых конфигурациях материи случайность и специфичность представляют две крайности одного континуума результатов действия неинтеллектуальных природных факторов (см. Таблицу 1):

Описания случайных слабо сжимаемых конфигураций материи характеризуются высокой сложностью и низкой специфичностью;

Регулярные структуры характеризуются низкой сложностью (сильно сжимаемы) и высокой специфичностью;

Лишь сигнатура специфической сложности:

сложность (относительно высокая энтропия Шеннона) + специфичность (относительно малая колмогоровская сложность)

представляет собой надёжный классификатор дизайна.

И случайность, и природная регулярность инертны к прагматике (к функции), поэтому естественные природные процессы не направлены и лишены прагматической цели. Естественный отбор, который любят приводить в пример оппоненты, осуществляется только из уже имеющихся функциональных фенотипов и не происходит по критерию будущей функции. Из всего нашего исследования ясно, что модель информации Шеннона, с которой мы здесь работали, не отражает специфического (функционального) аспекта биологической информации. По рассмотренным нами примерам ясно, что и природная регулярность, и случайность являются "киллерами" функциональной информации: невозможно закодировать функцию случайными или регулярными строками: в в первом случае будет наблюдаться высокая сложность с низкой специфичностью, а во втором множественные повторы, то есть низкая сложность и высокая специфичность. Функциональные же строки и сложны по Шеннону, и специфичны одновременно. Единственный известный из опыта источник достаточно сложной функции — интеллект.

Конфигурация материи с	Метрика описания с		Сложность	Специфичность	Класс
	Энтропия Шеннона	Колмогоровская сложность
Жидкость, газ	Высокая	Высокая	Высокая	Низкая	Не дизайн
Графический, аудио или текстовый шум
Кристаллы	Низкая	Низкая	Низкая	Высокая
Интерференционные и конвекционные паттерны, регулярные строки
Художественная и техническая проза	Средняя		Средняя		Дизайн
Машинный код (исполняемые файлы)	Высокая		Высокая
Белок-кодирующие участки ДНК
Функциональные участки линейной белковой структуры

Таблица 1. Характеристики конфигураций материи

Ниже мы увидим, что используемая нами эвристика, обращающая внимание лишь на сложность и специфичность конфигураций материи, в подавляющем числе случаев верно распознаёт дизайн. Возможные относительно редкие ошибки первого рода объясняются недостаточной чувствительностью эвристики к сложной функции: высокоэнтропийные конфигурации могут создаваться относительно простыми функциями, что классифицируется как дизайн, хотя сами эти функции могут появляться неинтеллектуально. Для повышения чувствительности распознавания следует рассматривать сложность функций.

Примеры конфигураций с высокими значениями энтропии и низкой колмогоровской сложностью

1. Иррациональные числа

Предположим, что мы получили радиосигнал из космоса, передающий значение π или e с точностью до миллиона знаков после запятой. В таком случае, в соответствии с нашей эвристикой, мы спокойно бы сделали единственно правильный, исходя из имеющихся на сегодня данных, вывод об интеллектуальном источнике сигнала. Действительно, с одной стороны, в этом случае нельзя было бы сжать данные без потерь, так как, с точки зрения сложности данных, иррациональные числа представляют собой случайную последовательность цифр. С другой стороны, алгоритмическая сложность π или e невысока: существуют довольно компактные алгоритмы вычисления этих чисел с очень большой точностью.

2. Клеточные автоматы

Известно, что клеточные автоматы являются математической моделью организмов и биологической эволюции. Известны примеры клеточных автоматов, производящих изображения с высоким значением энтропии Шеннона и низкой колмогоровской сложностью, также классифицируемые нашей эвристикой как дизайн. Рассмотрим двумерный паттерн, порождаемый так наз. "правилом 30", который выглядит так:


а. Состояния автомата в первые моменты времени	б. Реализующийся автоматом высокоэнтропийный паттерн	в. Живой организм, окраска которого близка к данному паттерну

i-е состояние	111	110	101	100	011	010	001	000
i+1 состояние центральной клетки	0	0	0	1	1	1	1	0
г. Правила смены состояний клеток

Рис. 1 Клеточный автомат "правило 30". Источник: Википедия

На рис.1 а-б отражены состояния клеточного автомата в последовательные дискретные моменты времени i = 0, 1, 2, ... сверху вниз. Cостояния автомата представлены горизонтальными рядами клеток двух цветов: 0 — белый, 1 — чёрный. Эволюция автомата начинается в момент i = 0, когда лишь одна из клеток чёрная, остальные белые. Программа, выполняемая автоматом, определяет цвет клетки в момент времени i+1 в зависимости от цвета самой клетки и двух соседних справа и слева в момент i. Правила изменения цвета клеток очень просты. Они показаны внизу изображения слева, а также в виде таблицы на рис.1 г. Эти правила могут быть выражены кратко формулой:

цвет_клетки_i+1 = цвет_клетки_i XOR (цвет_соседа_слева_i OR цвет_соседа справа_i).

Правило называется именно так, потому что состояние в следующий момент времени представляет собой число 30 в двоичной системе: 00011110₂ = 30. Хотя программа вычислений состояний клеток коротка, она со временем порождает изображение с очень высоким значением энтропии Шеннона (хаос). 7

Биологические структуры, моделируемые относительно простыми клеточными автоматами, подобными правилу 30, будут классифицироваться нашей распознавательной эвристикой как дизайны, хотя они могут оказаться вполне в пределах достижимости для эволюции. В таких случаях наши результаты будут ложноположительными (ошибками первого рода). Однако, их число будет относительно мало (см. ниже). Число ложноположительных результатов может быть минимизировано с использованием более сложных метрик, напр., алгоритмической специфической сложностью, введённой в работе [W. Ewert, W. Dembski, R. Marks: Algorithmic Specified Complexity in the Game of Life].

Простота "правила 30", а также других подобных правил, реализуемых клеточными автоматами или иными вычислительными моделями, может создать ложное впечатление способности естественных природных взаимодействий создавать сколь угодно сложнофункциональные структуры. В связи с этим следует иметь в виду, что любой клеточный автомат как таковой, пусть он выполняет даже самое математически тривиальное правило, моделирует реальные объекты, функционирование которых осуществляется в информационном контексте чтения данных и обработки информации, что, в конечном счёте, указывает на дизайн. Подробнее об этом можно прочитать в моём блоге здесь.

3. Биологическая эволюция

У предположения о способности ненаправленных естественных процессов, например, биологической эволюции, порождать сколь угодно функционально сложные структуры, много сторонников. В частности, есть мнение, что биологическая эволюция может иметь смещение в сторону функциональных фенотипов (таких, как белковые кластеры), которые имеют низкую колмогоровскую сложность, поскольку эволюционному процессу их может быть легче обнаружить. В качестве подтверждения подобных предположений часто приводятся именно клеточные автоматы, а также наблюдения проявлений схожих паттернов (как на рис.1 в). Но насколько наблюдения действительно подтверждают способность эволюции производить сложную функцию? На мой взгляд, подобные предположения в значительной степени спекулятивны. Даже сторонники исключительно эволюционного происхождения белков признают: природа — мастер на все руки, а не изобретатель [F. Jacob "Evolution and tinkering", Science. 196 (4295): 1161–6]. Вот что следует сказать по этому поводу:

Как я уже отмечал, эволюционный отбор работает не по принципу будущей функции, а по принципу оптимизации репродуктивного преимущества уже имеющихся функциональных фенотипов.

Функция в общем случае неаддитивна: невозможно скомпоновать одну сложную функцию из ряда простых. Поэтому области функций изолированы друг от друга в пространстве поиска, представляясобой острова.

Эмпирических подтверждений способности неинтеллектуальных ненаправленных процессов производить статистически значимые количества функциональной информации на данный момент нет. По моему убеждению, их и не будет, так как из-за ограниченности вероятностных ресурсов биологическая эволюция способна отыскать лишь сравнительно несложные функциональные белковые структуры: известная мне оптимистическая оценка максимальной длины функциональной белковой строки, достижимой эволюционно, составляет всего 33 АА (140 функциональных бит). При этом средняя длина белкового домена (функциональной единицы линейных белковых структур) составляет, по разным оценкам, от 100 до 150 АА, тогда как домены длиной менее 40 АА считаются короткими (в основном, короткие домены заняты в обеспечении регуляторных функций). В то же время, максимальная функциональная сложность целого ряда белковых кластеров, разнесённых друг от друга по пространству поиска, составляет порядка десятков килобайт функциональной информации (рис.2).

Рис.2 Функциональная информация в линейных белковых структурах исследованной группы белков. FSC: functional sequence complexity, функциональная сложность линейных последовательностей аминокислот (aa); fit — functional bit, функциональный бит. Источник: [K. Durston et al, Measuring the functional sequence complexity of proteins]. Красными линиями я обозначил границу эволюционных возможностей создания функций (140 функциональных бит, или 33 АА максимум)

Ни один практический классификатор не достигает 100%-ной точности и ни один не является оптимально чувствительным, чтобы уметь выуживать во всех случаях только полезный сигнал, отфильтровывая шум. Поэтому не стоит ожидать этого и от эвристического классификатора дизайна.

На практике в задачах распознавания всегда есть ошибки первого (ложно-положительные результаты) и второго рода (ложно-отрицательные результаты):

Ложноположительный результат, ошибка первого рода: нечто, не являющееся дизайном, распознаётся как дизайн;

Ложноотрицательный результат, ошибка второго рода: дизайн не распознаётся классификатором как таковой.

Иными словами, реальность такова, что наличие ошибок распознавания принципиально неистребимо. Но и это ещё не всё. Оказывается, что проблема ошибок первого и второго рода — это проблема компромисса и оптимизации:

Часто бывает так, что когда мы снижаем число ошибок первого рода путём изменения значений параметров модели, число ошибок второго рода возрастает, и наоборот, уменьшение числа ложноотрицательных результатов распознавания приводит к увеличению числа ложноположительных.

В редких случаях эволюционно достижимых белковых функций наш эмпирический метод распознавания дизайна будет давать ложноположительные результаты, однако число их по сравнению с общим числом дизайн-положительных функций будет относительно весьма мало:

Согласно Google Gemini, в таких популярных базах данных по белкам, как CATH, ~ 99% функций обеспечиваются доменами длиной 40 АА и выше.

Существуют оценки редкости функций в пространстве линейных белковых структур. Напр., в [D. Axe "Estimating the prevalence of protein sequences adopting functional enzyme folds"] она оценивается в 1 функциональную структуру на каждые 10⁷⁷.

Острова сложной функции в пространстве белковых структур настолько разнесены друг от друга, настолько редки, а само пространство имеет столь гигантские размеры, что статистическое обоснование возможности эволюционных процессов набрести на них и закрепить в популяциях даже в предположении максимальной скорости размножения в масштабах жизни всей биоты представляется ахиллесовой пятой современных эволюционных моделей. Подробнее об этом можно почитать у меня в блоге по тэгу gpuccio.

Мы рассмотрели очень простую эвристику распознавания дизайна по сложной специфичности описания наблюдаемой конфигурации материи. Для простых биологических функций, достижимых эволюционно, наш метод распознавания может давать относительно небольшое число ложноположительных результатов. Чтобы улучшить точность распознавания дизайна, необходимо использовать более чувствительную метрику, что потребует более сложных вычислений. Пример такой метрики рассмотрен в работе [W. Ewert, W. Dembski, R. Marks: Algorithmic Specified Complexity in the Game of Life].

В заключение в ответ на часто возникающее недоумение отметим, что в том, что касается распознавания дизайна, дело совсем не в пробелах в знаниях. Наш вывод о дизайне по высокой сложности и высокой специфичности наблюдаемой конфигурации материи вызван не тем, что мы, не имея возможности найти естественно-научное объяснение наблюдениям (например, существованию программного кода на ДНК-носителе), приписываем это божественному вмешательству. Напротив, вывод о дизайне основан на том, что мы знаем. Например, мы знаем, что код может быть дизайном, тогда как наблюдения возникновения кода иным образом отсутствуют. Поэтому вывод о дизайне биологических кодов наилучшим на данный момент образом отвечает имеющимся эмпирическим данным.

Таким образом, мы можем с уверенностью утверждать, что всякая достаточно сложная функция имеет интеллектуальное происхождение.

|

Обсуждение результатов исследования. Выводы

Expand Cut Tags

Обсуждение результатов исследования. Выводы

Profile

January 2026

Most Popular Tags

Style Credit