mns2012

Информация Шеннона и вероятность событий — принципиально одно и то же, различны лишь единицы измерения.

Чтобы получить биты, вероятность логарифмируют:

Shannon_information(s) = −log₂(Probability(s)),

где s -- строка символов, каждый символ которой представляет результат того или иного события.

Например:

Серия бросков честной монеты. В этом случае мы имеем дело с результатами независимых случайных событий с одинаковой вероятностью конкретного исхода из M возможных. При этом количество шенноновской информации в строке фиксированной длины максимально (если же монета несимметрична, то появится смещение (bias), которое будет влиять на исходы бросков, уменьшая информацию Шеннона, см. вики-статью Информационная энтропия).
- Возможные исходы каждого индивидуального броска: 0 или 1 (то есть алфавит содержит M = 2 символов). Разумеется, мы не учитываем экзотику типа кинули монету в чан с кислотой и она, пока падала, растворилась; монетку уничтожил в полёте снайпер; монета испытала на себе какой-нибудь эффект тунеллирования и пр. Такими исходами можно спокойно пренебречь в большинстве случаев на практике.
- При условии, что длина каждой строки равна N: |s| = N, вероятность реализации фиксированной серии бросков s: Probability(s) = p_i^N = (1/M)^N= (1/2)^N, по теореме умножения вероятностей независимых событий, причём вероятность каждого события p_i= 1/M.
- Информация: Shannon_information(s) = −log₂(1/2)^N = N бит. Чем, собственно, и удобны броски честной монеты, так как результат каждого отдельного броска сообщает наблюдателю ровно 1 бит информации Шеннона.

Полинуклеотиды:
- Cуществует 20 протеиногенных аминокислот, то есть в этом случае размер алфавита M = 20.
- При том же условии |s| = N, вероятность генерации случайной нуклеотидной строки s: Probability(s) = (1/20)^N.
- Информация: Shannon_information(s) = −log₂(1/20)^N = log₂20 * N ≈ 4.3N бит.

Понятно, что независимость и равновероятность исходов -- это идеализация. Однако в ряде случаев она удовлетворительно моделирует то, что происходит в действительности. Например, в контексте синтеза белка на рибосомах практически отсутствует какая-либо химическая избирательность (bias) при полимеризации нуклеотидов, что предоставляет возможность полинуклеотидам нести информацию принципиально точно так же, как и инертность законов природы относительно последовательности символов обычного текста позволяет передавать информацию путём записи на бумаге, на электронном носителе, на бересте, сурдопереводом или ещё как-нибудь.

Информация Шеннона представляет верхнюю границу для функциональной информации: одна и та же строка символов, несущая N шенноновских бит, может нести или не нести смысл в определённом контексте. Только в первом случае количество функциональной информации в этой строке будет большим нуля.

Например, если чертёж какого-нибудь агрегата содержит ошибки, количество функциональной информации в нем меньше, чем в чертеже без ошибок, причем критические ошибки уменьшают количество функциональной информации до нуля.

Формула для подсчёта количества функциональной информации в строке s относительно функции f:

Functional_information(s, f) = − log₂(|T_f|/|S|),

(1)

где |T_f| — число синонимичных строк, кодирующих заданную функцию f, |S| — число возможных строк, 0 < |T_f| <= |S|. T_f — целевое подпространство пространства S возможных строк: T_f ⊂ S. T_f содержит строки, кодирующие f.

Если для простоты допустить, что рассматриваются только строки одинаковой длины N: |s| = N, то |S| = M^N. Тогда:

Functional_information(s, f) = − log₂(|T_f|/|S|) = − log₂(|T_f|/M^N) = − log₂(|T_f|M^-N) = − log₂(M^-N|T_f|).

Множество S всех строк содержит целевое подмножество T_fстрок, кодирующих функцию f.

Физический смысл дроби в формуле (1) состоит в вероятности случайного попадания в T_f при генерации строки (без осуществления поиска). Отсюда, кстати, видно, что формула для подсчёта функциональной информации может быть преобразована в формулу информационной энтропии.

Определение. Приведённое количество функциональной информации Functional_information₀(s,f) представляет собой количество функциональной информации на символ строки:

Functional_information₀(s,f) = Functional_information(s,f) / |s|.

Число строк, кодирующих заданную функцию f, |T_f| ≥ 1. Рассмотрим два случая.

Случай 1: |T_f| = 1

Функция максимально консервативна, так как при изменении любого символа в функциональной строке функция разрушается.

Пример: цифровой замок. Замок не откроется, если хотя бы одна цифра из набранных не соответствуеткодовой комбинации.

В этом случае единственная функциональная строка несёт максимум функциональной информации, который равен количеству информации Шеннона. Если для простоты снова принять, что |s| = N, то приведённое количество функциональной информации составляет:

Functional_information₀(s,f) = − log₂(M^-N|T_f|) / N = − log₂(M^-N) / N − log₂|T_f| / N = N log₂M / N − 0 = log₂M.

Случай 2: |T_f| > 1

Чем больше синонимов допускает функция, тем менее она консервативна, потому что в этом случае замены одних символов в функциональной строке на другие не приводят к полной деградации функции.

Пример: биологическая функция (например, связывание АТФ миозином).

Если число синонимов |T_f| = k > 1, то количество функциональной информации в каждой из строк синонимов уменьшается по сравнению с информацией Шеннона. В частности, приведённое количество функциональной информации уменьшается на величину log₂k / N:

Functional_information₀(s,f) = − log₂(M^-N|T_f|) / N = − log₂(M^-N) / N − log₂|T_f| / N = log₂M − log₂k / N.

Всё это, в общем и целом, должно быть очевидно и понятно. Но судя по качеству большинства комментариев, здесь возникают какие-то трудности в понимании.

Cм. также:

Bill Dembski: Specified complexity made simple

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

|

May. 4th, 2025

Expand Cut Tags

May. 4th, 2025

Информация Шеннона и вероятность событий

Profile

January 2026

Most Popular Tags

Page Summary

Style Credit