Expand Cut Tags

No cut tags
mns2012: (Default)
[personal profile] mns2012
В этой записи я ещё раз подытоживаю результаты моего недавнего экскурса в вопросы теории информации в контексте распознавания дизайна.

Наша довольно простая и грубая эвристика:
"сложность + специфичность → дизайн"

может выдать ошибки первого рода, то есть ложноположительные результаты, иными словами, классифицировать как дизайн то, что непосредственным дизайном не является (рис.1).

Specified.Complexity.Design.Detection.R.png

Рис.1 Применение эвристического метода распознавания дизайна на основе специфичности и сложности может давать ложноположительные результаты (ошибки первого рода), соответствующие сравнительно высокоэнтропийным паттернам, порождаемым простыми клеточными автоматами


На рис.1 существующие конфигурации материи представлены наиболее характерными примерами и условно сгруппированы в кластеры в нормированном пространстве между относительно низкой и высокой специфичностью и низкой и высокой энтропией. Эвристика классифицирует как дизайны конфигурации, описания которых сложны по Шеннону и специфичны одновременно (зелёный прямоугольник в верхней правой части квадрата).

Я хотел бы пояснить здесь кое-что.

Самое первое замечание: существующие в природе объекты занимают не весь квадрат. Низкая специфичность и низкая энтропия — взаимоисключающи.

Объекты реального мира, описываемые как высокоэнтропийными и низкоспецифичными (левый верхний угол квадрата), так и регулярными строками (правый нижний угол), не подпадают под действие эвристики, поэтому они не классифицируются как дизайны. Это ожидаемый результат. В случае, если такой объект является дизайном, эвристика выдаст ложноотрицательный результат, что также совершенно нормально.

Самый интересный случай — клеточные автоматы. Известно, что клеточные автоматы (КА) могут моделировать организмы: их структуру, поведение и эволюцию. Кстати, именно поэтому говорят, что организмы вычисляют своё состояние: существуют так наз. тьюринг-полные клеточные автоматы, эквивалентные универсальной машине Тьюринга, абстрактной математической модели вычислителя. Игра "Жизнь" Джона Конвея является примером тьюринг-полного КА.

Мы можем оценивать сложность и специфичность как самих автоматов, так и тех паттернов, которые они порождают. Сами КА могут иметь разную сложность, поэтому они присутствуют на рис.1 по всей вертикали, соответствующей высокой специфичности и разным значениям энтропии. Относительно сложные по Шеннону автоматы эвристика корректно классифицирует как дизайны. Однако с паттернами, порождаемыми клеточными автоматами, ситуация не столь однозначна.

Мы с вами видели пример клеточного автомата: Правило 30. Сам по себе он очень прост, однако создаёт паттерн, характеризующийся большим значением энтропии Шеннона.

rule_30.png Rule30-256-rows.png
1280px-Textile_cone.JPG
а. Состояния автомата
в первые моменты времени
б. Реализующийся автоматом
высокоэнтропийный паттерн
в. Живой организм, окраска которого
близка к данному паттерну

i-е состояние 111 110 101 100 011 010 001 000
i+1-е состояние центральной клетки 0 0 0 1 1 1 1 0
г. Правила смены состояний клеток

Рис. 2 Клеточный автомат "правило 30". Источник: Википедия



Поскольку КА моделируют эволюцию, не опровергает ли это наш с вами вывод о том, что специфическая сложность некоторой конфигурации C материи является практически надёжным указателем на то, что C — дизайн?

Нет, не опровергает.

Здесь необходимо сказать следующее.


  1. Любой практический метод распознавания может выдавать ошибки первого и второго рода. Наша эвристика не исключение: либо то, что не является дизайном, классифицировать как дизайн; либо не заметить действительный дизайн. Полностью избавитья от ошибок распознавания на практике не реально. Речь идёт об оптимизации параметров классификатора, чтобы повысить его точность (так называемый f1-score, родной до боли каждому специалисту по анализу данных); часто это вопрос компромисса: уменьшаешь число ошибок первого рода — число ошибок второго рода при этом увеличивается; и наборот.

  2. Далее. Сколь бы ни был прост КА, он может работать только в особо организованной вычислительной среде, предполагающей предшествующую настройку на чтение, запись, хранение, воспроизведение и обработку данных. Существование такой специфически сложной среды само по себе указывает на дизайн, что и отражает наша эвристика.

  3. Однако остаётся вопрос: а могут ли образовываться простые функциональные биологические структуры, подобные Правилу 30, эволюционным путём в уже имеющейся вычислительной среде? В принципе, могут. И именно эти случаи будут соответствовать ошибкам нашей эвристики, классифицирующей их как дизайны. Однако, здесь нужно оговориться.

    1. Имеет смысл рассмотреть базовый уровень биологической организации — молекулярный, а именно: линейные последовательности аминокислот (АА). Аминокислоты — кирпичики, из которых, как из букв слова, в процессе белкового синтеза на рибосомах составляются линейные структуры молекул белка, укладывающиеся впоследствии в трёхмерную форму, обеспечивающую их способность вступать в молекулярные взаимодействия и тем самым осуществлять свою функцию. Максимальное число геномов, которые эволюция могла теоретически просмотреть за всю историю составляет порядка 2140. Эта оценка была выведена с учётом всевозможных оптимистических предположений о скорости размножения организмов, скорости появления и закрепления мутаций, а также времени, находившемся в распоряжении эволюции в масштабах всей биоты [см. мою запись]. Эта оценка поистине щедрая. По числу геномов можно оценить максимальное количество функциональной информации, способное быть сформированным эволюционно: −log2(1/2140) = 140 функциональных бит. Почему же мы можем утверждать, что чисто случайно (с) эволюция не набредёт на сложную функцию? По соображениям неумолимой статистики.

      1. Во-первых, потому что подавляющее большинство мутаций нейтральны и поэтому не видны отбору. То есть эволюция оперирует в основном в режиме блуждания по плато без оценивания качества. Не будет поэтому видна отбору и сложная функция, пока она представлена в строке вся целиком. В статистическом смысле, эволюции гораздо легче набрести на сравнительно короткие функции, которые сможет заметить отбор, но, как только отбор сделает своё дело и фитнес-функция достигнет локального максимума, на этом всё интересное и кончается: эволюция застревает в локальных оптимумах, которых тем больше рассыпано по пространству, чем меньше сложность функции.

      2. Во-вторых, по самому смыслу сложности строковых функций (сравнительно длинные функциональные цепочки аминокислот), сложные белковые функции разбросаны по пространству поиска намного реже, чем простые [см. мою запись "О редкости сложной функции в пространстве строк"].

      3. В-третьих, эволюция отбирает по критерию репродуктивного преимущества, а не по критерию будущей функции, которая "вот-вот сейчас соберётся". Ещё раз повторю: эволюция нечувствительна к функции, пока она не будет представлена в геноме целиком.

      4. А вот где эволюция реально работает — это очищающий отбор: всё, что приводит к деградации фитнес-функции, особенно если речь идёт о функциях, критически важных для жизнеобеспечения, будет безжалостно отфильтровываться (сдаётся мне, что это тоже дизайн 😎).

      Итак, эволюция может произвести 140 функциональных бит максимум. Соответственно, максимальная длина первичной белковой структуры составляет ⌈ 140 / log220 ⌉ = 33 АА, поскольку существует 20 протеиногенных аминокислот. В то же самое время, согласно, специализированной базе данных CATH, ~99% запротоколированных белковых функций реализуются строками длиной от 40 АА и более. Отсюда видно, что если и будут наблюдаться ошибки классификации при использовании нашей эвристики, то число их будет относительно невелико.

    2. При оценивании реальных (а не теоретических) возможностей эволюции по созданию сложной функции необходимо также учитывать структуру пространства эволюционного поиска (например, пространства белковых строк). Дело в том, что чем более сложной является функция f, тем реже плотность белковых строк, реализующих f. Зависимость редкости функции от длины строки, кодирующей её, — экспоненциальная. Интуитивно это понятно, ведь, при возрастании длины функциональной строки экспоненциально быстро возрастает число способов деградации функции [наглядный пример был рассмотрен здесь]. Функции с относительно высокой сложностью характеризуются критической зависимостью от присутствия конкретных символов в той или иной позиции строки. Например, известно, что если повреждён загрузочный сектор на жёстком диске, персональный компьютер работать не будет. С другой стороны, известная оценка редкости функции в пространстве белковых строк составляет 1 функциональную строку на каждые 1077 строк [D. Axe, Estimating the prevalence of protein sequences adopting functional enzyme folds]. Функциональные области в пространстве параметров представляют собою изолированные острова относительно малого размера. Острова представляют собой группы строк-синонимов, достижимых одна от другой за один шаг поиска и кодирующих f. При этом чем выше сложность функции, тем меньше размер островов (размер групп синонимов).

    3. Следует также иметь в виду, что функция в общем случае неаддитивна, то есть в общем случае нельзя скомпоновать более сложную функцию добавлением простых. 1 ноутбук невозможно собрать из 10 калькуляторов без основательной переработки, включая дискретное (сразу и целиком) добавление новых функциональных узлов.


  4. И наконец, последнее. При необходимости можно улучшить чувствительность классификатора, рассмотрев не специфичность как таковую, а сложность функции, реализуемой наблюдаемой конфигурацией материи. В применении к клеточным автоматам это означает, что необходимо наложить дополнительное условие на порождаемые ими сложные паттерны, потребовав их функциональности. Пример такого расчёта для игры Жизнь представлен в работе [W. Dembski, W. Sweet, R. Marks: Algorithmic Specified Complexity In the Game of Life]. Мы эту задачу с вами не ставили. Моя цель состояла лишь в демонстрации с калькулятором в руках работоспособности классификатора, основанного на оценивании специфической сложности.

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

mns2012: (Default)
mns2012

January 2026

S M T W T F S
    1 23
45678910
11121314151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Page generated Jan. 14th, 2026 06:59 pm
Powered by Dreamwidth Studios