谷歌成立之初,天使投资人问创始人:现在做搜算引擎的公司已经非常多了,你们为什么还要做?谷歌创始人说:我们做的不是搜索,我们做的是人工智能啊!
搜索与人工智能有什么关系呢?
学过专家系统的同志都知道:人工智能的求解问题,往往可以转化成搜索问题。但搜索过程往往面临组合爆炸,传统算法无法在有限的时间内计算出来。人工智能算法就是要解决这类问题。所以,有人对这样定义智能:智能就是在一个巨大的搜索空间中,迅速找出较优解的过程。按照这个定义,智能算法是搜索算法,智能算法并不要求最优解、而是要求可接受的解,智能算法需要足够快。
搜索引擎就是要在巨大的搜索空间中,搜索到用户期望看到的东西。但问题是:什么才是用户最希望看到的东西呢?这需要理解用户的心理、需要读心术。这一点,谷歌做得特别好。在美国过会的一次听证会上,共和党议员问谷歌的CEO桑达尔·皮查伊:为什么我们打入白痴(idiot)时会出现特朗普总统的照片?皮查伊回答道:因为我们有些客户就是想看特朗普。
这种奇怪的“读心术”,谷歌是如何做到的呢?吴军先生在《数学之美》这本书中说的很清楚:计算概率。互联网上的数据样本特别多控制工程网版权所有,这是合理计算概率的基础,而大数据技术使得快速的复杂计算成为可能。于是,人工智能走向了一个新的台阶。
前几年,谷歌的阿尔法狗风靡一时。其本质也是计算概率。我们知道:下棋的过程是要比较各种不同的走法,从中搜索出好的走法。但是,搜索的步子多了以后,就会遭遇组合爆炸。人工智能技术的关键,就是要减少搜索量。如何减少呢?就是要有重点的搜索。在专家系统这门课上,需要建立“启发式函数”去模拟人类的感性认识,评价哪些步骤更适合作为重点。
“重点搜索”的是取胜可能性较大的做法。本质上也是个算概率的问题。但是,这种概率函数很难人为地给出。人类棋手的判断,常常基于他的感觉。如何才能模仿人类的感觉呢?谷歌采用了依赖大数据的深度学习技术获得“启发式函数”,模拟人的感觉,本质上就是可以更合理地计算概率。
最近特别火的ChatGPT,回答问题时同样是在计算概率。你给出一个问题后,计算机给出概率大的答案。由此可见,从某种意义上说,人说不清、道不明的感性认识,本质上就是在计算概率。
我很早之间就认识到了概率和智能的关系。
1994年,我在浙大读博士。在何亚平老师的哲学课上,我走到黑板的前面画了A、B、C三个点。其中,C距离A非常近。我对大家说:已知A、B是两类不同的样本,请问C应该分到哪一类?这个问题给的条件太少,显然没有确定的答案。但如果一定要选一个的话,多数人会选择C与A属于同一类。因为觉这样的概率比较大。但人们又是如何判断概率的呢?我认为可以做个随机试验:随机给出一个线性分类器,把C与A划成一类的概率更大一些。当时,我没有把想法说清楚,只是有点模糊的感觉。我想说的是一个道理:智能的本质是对概率的判断。
概率论事一门严密的数学学科。但在现实中,理想的概率往往是不存在的——正如数学上的“直线”在现实中是不存在的。现实的概率,往往只能在一定的条件下才能逼近数学理论中的概率。如果把现实中的概率当成数学上的概率,往往会犯错误。
合理认识现实中的概率,体现了人的智能。
我特别喜欢《黑天鹅》中的一个故事。作者问两个人:假如一个硬币丢了99次www.cechina.cn,都是正面朝上。请问第100次正面朝上的概率是多大。对于这个问题,读书读傻了人往往会说:根据概率理论,第100次投币正面朝上的概率和前面的结果无关,所以概率为0.5。但实践经验更丰富的人则会说:这个概率应该大于0.5。他的理由是:前面99次都正面朝上了控制工程网版权所有,你还能假设正面朝上的概率是0.5吗?
处理概率问题的本质是如何面对不确定性。不确定性是在信息和知识不完备的前提下产生的。而人的智慧往往就体现在信息和知识不充分时如何决策www.cechina.cn,就像传说中诸葛亮通过“夜观天象”而知“午时三刻有东风”。
我到宝钢之后,从事了多年的数据分析工作。我当时就认识到:现实中的概率和教科书上的概率不一样。教科书上的概率有个基本的前提假设:事件发生的频度是稳定的。而现实中,频度稳定几乎是做不到的。
比如,宝钢大院每年生产几十万块钢坯。钢坯的缺陷率是否可以看成概率呢?很难。因为每年的“缺陷发生频率”都不稳定。比如,有的年份2%,有的年份5%。为什么会有这么大的波动呢?一个重要的原因是产品不同。有的产品缺陷发生率可以高达20%,有的几乎无缺陷。而每年生产的产品比例不一样。那么,对于特定产品是不是就可以固定缺陷率呢?我发现也不行。即便对于同一个钢种,有的年份缺陷率5%,有的年份15%。特定钢种的缺陷率为什么变化这么大呢?因为有个清理环节,可以把缺陷清理掉。缺陷率是清理之后才统计的,但清理情况经常变化。那么,把产品和清理情况固定下来,缺陷率是不是就稳定了呢?仍然不稳定www.cechina.cn,因为还会有众多的系统干扰。如果把各种系统干扰都排除掉,则每组样本中的样本数目就非常少了,不再具备统计意义。当缺陷发生频度不稳定的时候,许多模型就不会有效了。
在我看来,每次缺陷的发生往往都有具体原因。而工厂的技术人员似乎更喜欢关注具体原因。只有具体原因无法观测的时候,才不得不用“概率”。所以,如果信息收集足够完备,人们就可以用机理知识而非概率统计解决问题了。
在我看来,传统的概率统计理论,都是在小数据的背景下形成的。这个理论体系已经不太适合大数据时代和信息时代了——换句话说,大数据时代的很多问题不适合用传统的概率理论来描述了。
在计算能力极大增强、信息趋于完善的时代,如何重新认识概率和不确定性,会给我们带来机会,也会带来挑战。或许,需要拓展“概率”的概念,并发展出新的理论。