虽然你并没有见到过买彩票中奖的算命先生,但几乎每个中奖的人都会吹嘘自己拥有了算命先生的能力。有些中奖者,就像赵本山的小品中的人物那样,会声称自己是从梦中获得的灵感来选择号码,还有一些中奖者则会声称自己拥有某种超级预测的能力。
但不管这些人如何声称自己拥有超能力,但我们可以相信,还是很少有正常的企业会高薪聘请这类人来帮助企业做市场预测分析。
随着互联网和计算机的普及,人们做决策时越来越注重“数据驱动”,也就是说更加依赖于客观的统计数据而不是某些人的所谓“判断”。在这个以事实为基础的领域中,常见的词汇都是“分析学”、“大数据”、“商业情报”以及“数据科学”等。
统计科学的任务就是在大量微观个体的相互作用中发现可以被辨识的宏观模式,这些模式可以是数学公式,可以是图标,也可以是若干个更为直观的指标或指数,如均值,方差,CPI和PPI等。
在传统的统计学中,数据是“混合的”(mixed),就像容器内的分子。因此,我们关心的是大量数据中呈现出的宏观量,就像容器内气体的温度。
但是大数据预测分析则更近了一步,它不仅仅是要搞清楚宏观统计规律,更要弄清宏观数据中的精细结构,例如,大数据分析既关心某款手机的销售量,更关心是哪个群体的人会更有可能购买该款手机。
因此,在大数据分析的视野中,数据不再是混合的,而是“聚块的”(assorted)。表面上看是混杂的,但放大了看,则有精细的结构:华为手机用户产生的数据;鹿晗粉丝留下的数据;克罗地亚球迷留下的数据;等等。
所谓的大数据,我将其定义为与人的行为相关的所有数据。人们几乎所有的行为都会留下痕迹,这些痕迹就是所谓的数据。这就意味着,在大数据的视野里,所有的数据就像道路上的脚印,虽然看上去杂乱却是“有迹可循”的。
数据的“前后相随”形成了“足迹”,大数据分析技术可以帮助我们辨识出无数不同的“足迹”。但是我们一定要注意,这些“足迹”不是相互独立的而是相互影响相互关联的。有些足迹会“殊途同归”而有些足迹则会“分道扬镳”。
由于人是有限理性的,因此对于问题类型的兴趣各不相同,即使对于同一个问题也会形成不同的看法。不同类型的数据虽然都被埋在了网络中海量的数据库里,但是具有不同兴趣不同知识背景的人们总是能够在其中“嗅出”自己所需要的特殊“信息素”,并进而引发五花八门的聚集行为。
以维基百科为例。在维基百科的发展过程中,万维网构成了信息聚集和信息流的物理环境。如果有某位作者在维基百科中新增了一个词条,则该词条就会成为一个标识,它所包含的特殊的“信息素”会引导着那些对这个词条感兴趣的读者或编辑的聚集行为。在聚集过程中,他们以网页为媒介间接地进行交往,或增加内容,或修改内容,或激烈争论,持续不断地进行着信息和知识的交流。有时候他们会很快就达成共识,有时候则会在交流和反馈中产生“无中生有”的涌现,形成新的观念和新的词条,从而留下新的“信息素”而引发新的聚集。有时则会因为意见不合或者兴趣衰减而一哄而散。
人们在由维基百科提供的工作环境基于stigmergic机制的间接交往,使得维基百科涌现出了巨大的“智慧”,其内容的广泛性、专业性、包容性、多样性和时代性都超过了任何一本由少数专家“精心编撰”的百科全书。然而,尽管维基百科呈现出多样性、不断变化、缺乏中央指挥,但无论是从短期看还是从长期看,它都始终保持了协调性。
不过,实际上我们面对的绝大多数数据并不像维基百科那样有清晰的结构。如何才能在表面杂乱的数据中发现隐藏的结构和秩序,需要的是合适的算法。
互联网和计算机的普遍使用每天都为我们留下海量的数据。数据仿佛只是无数事实和数字的堆砌,每条数据都显得无聊,有的人看到数据就头疼。然而正如库瓦尼先生所说的“数据是一种新型石油”那样,数据中蕴含着巨大的财富。
不过数据本身还不是财富,作为原材料的数据只是一个枯燥无味的代码组合。只有通过合理有效的方法提炼出来的规律和知识才是如黄金般珍贵的财富。
人的能力有限,不可能同时处理如此海量的数据,幸好现在有了计算机。但是,再强的计算机面对着每天都在指数式增长的海量数据也会感到“内存”有限,再强的CPU都会担心在某一时刻是否会因为温度太高而“自焚”。
写到这里,想到了人的免疫系统。由于病毒或者细菌具有超强的变异能力,这使得新的病毒和细菌层出不穷,从理论上会趋于无限。很显然人的免疫系统中不可能储存如此多的病毒或细菌信息。面对这样的一种情况,密执根大学的John H. Holland教授产生了这样的想法:大自然一定有自己的算法。
这个想法的伟大之处在于,只要拥有了好的算法(软件),有限的硬件就可以做无限的事情。
Holland教授指出:“正是由于适应行为而导致的复杂性,阻碍了当今世界许多重大问题的解决。”
事实上,免疫系统遵循着大自然的“节约”原则,任何一个时刻储存的信息都是有限。那些长期没有出现的细菌和病毒将会被淡忘甚至遗忘,而那些最近出现在身体的疾病信息则会被储存。因此,大多数人在感冒痊愈后的一段时间不再感冒,这是因为免疫系统记住了这些细菌或病毒的特征,只要出现就坚决消灭。而过了一段时间以后,这些病毒或细菌变异后将以陌生的面孔出现在免疫系统面前,从而蒙混过关,让人的病。
Holland教授根据新达尔文主义的基本观点,抽象地分析了自然系统的自适应过程,提出了遗传算法(Genetic algorithm,简称GA),并以此来实现系统结构的演化过程。
继遗传算法之后,很快有了进化算法、蚁群算法、鱼群算法、涌现算法和stigmergy算法等等自适应的算法。中国古代先哲老子的“道法自然”的理念在各种适应性算法中得到了完美的实现。
适应性算法的出现,为一个新的学科——机器学习的诞生奠定了基础。
机器学习,就是让电脑自动获取新知识和新能力,持续不断地输入现代社会最重要的非自然资源:数据。
输入数据→机器学习→预测→通过经验数据的反馈再学习,通过这样的一个过程将会不断提高机器的预测能力。
例如,好莱坞的影视公司会预测,如果某剧本被制作成影片,它是否会受欢迎。如果受欢迎,主要是什么年龄阶层或社会阶层的人会更加欢迎。
对于足球队教练来说,他要知道哪些运动员会在关键比赛的关键时刻更容易“掉链子”,从而做出有效的换人安排。
对于美国总统候选人来说,那些摇摆不定的选民更容易接受什么样宣传媒体和宣传口号,从而提高获胜的机会。
机器学习会从这些发现中尝试建立预测能力,通过对数字的挖掘和试错,运用统计学方法和计算机科学方法实现这种预测。
接下来,需要讨论的问题是,机器学习能否替代人们的自主学习?机器预测能否替代人的判断?还有一个更大的问题是,在强大的人工智能面前,人怎么实现真正的自由?