香农熵与大脑学习

Time: 三月 6, 2009
Category: Life

信息是个抽象的概念,我们常说信息很多或者很少,但是很难说清出信息到底有多少,比如一篇800字的文章有多少信息量。

直到 1948 年,信息论之父 C. E. Shannon 在其发表的论文  A Mathematical Theory of Communication 中第一次将热力学的熵引入到信息论,并用数学语言阐明了概率与信息冗余度的关系。

在通信领域,大家知道,通信链路传输的是比特流,通信的双方均会事先遵守某种人为约定,比如,00 表示“我”,01 表示“爱”,10 表示“老”,11 表示“婆”,所以如果 A 给 B 发送 00011011,B 就会知道 A 说了一句话:“我爱老婆”

Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。什么是冗余,冗余就是多余重复的东西,比如,通 信的 A 端给 B 连续发了 1000 次 00011011 比特序列,那么就有 999 次是多余的,实质上 A 只需给 B 传输一次,然后告诉 B 要重复多少遍就行。

举个例子,系统 S 内存在多个事件 S = {E1,…,En},每个事件可能出现的概率为 P = {p1, …, pn},则每个事件本身(信息本体)的量为: Ie = − log2pi(对数以2为底,单位是比特(bit))

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为:

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:

这就是 Shannon 的理论信息极限,相比使用 utf-8 字符集来传输,每个英文字符可节省的极限信息量是 8 – 4.7 = 3.3bit,而汉字则是 24 – 11.3 = 12.7 bit(注:在 utf-8 字符集里,用 8 bit来表示一位英文字符,用 24bit 来表示一个汉字) 。

-------------------------------------------------------------------------------------

OK,如果你能明白我上面说的,那就可以想得到,事实上信息处理的过程和大脑学习是多么的相似,人脑包括两个功能体,一个负责存储信息,一个负责处理信 息。今天我只想讨论大脑如何接受新知识的过程,假设信息的本体是“知识点”,这就有,人脑的学习过程其实就是不断存储新知识点的过程。

但是不同的大脑,对新知识接受的方式不同,等同与上面提到的通信约定,在计算机程序里相当于你取决于何种信息处理的算法。不同的算法,处理结果是不 一样的,比如说,你不一定要约定 00 表示“我”,你可以这样假定,0 表示“我”,100 表示“爱”,101表示“老”,然后 110 表示“婆”,传输的比特流就成了 0100101110,相对于第一种约定,多开销了 2 个比特

所谓信息处理的算法,在映射到大脑学习的过程里,是一个人接受新知识的能力,也就是说,你的能力越强,学习同样的东西,经过各自大脑的处理但是你的结果要比其他人更接近信息本体的极限,也就是说,你需要存储的量,要比他人少得多。

这里说的能力有两个意思:记忆力,以及能够揭示知识之间的关系

人的记忆力是不存在差别的,这点要切忌,记忆的本质只是知识重现的过程。想让你的知识变得更加牢固,就要不断重现它,一个单词读一遍和读1千遍的效 果截然不同,更重要的是,对一个知识点的不断重现,大脑就会将它放到越容易找到的地方。(因为有人想到这一点,所以发明了MTF转换)

而能否揭示知识之间的关系以及将这种关系揭示到何种程度,是衡量人与人之间能力差异化程度的重要标准,比如,算术编码就是一个很好的例子。此外,还 需注意的是,关系越复杂,人脑需要消耗的脑容量就越大,甚至有时超过于信息本体本身,这一点,我自己也不是很清除。不过有一点可以肯定的是,你挖掘的越 多,你的头脑就越灵活。

所以说,能力在很多时候是远要比知识更重要

Leave a Comment