大数据(Big Data)一词最早出现在apache org的开源项目NUTCH中,当时科学家用大数据这个术语来描述在更新网络搜索索引的同时进行批量处理或分析的大量数据集。
1980年,当代著名思想家阿尔文·托夫勒在其《第三次浪潮》中将大数据描绘为信息社会的重要篇章。人们对于数据的海量挖掘和大量运用,不仅标志着产业生产率的增长和消费者的大量盈余,而且也明确地提示着大数据时代已经到来。它正在影响着社会和科技的每个角落层面,成为不可忽视的重大问题。
其实人类并非初次接触到大量数据,对数据的运用贯穿人类社会已久。自然数可以无限数下去,数量大到无穷;全国人口普查数据,每年新增几十亿;工业革命以来,数据已经经历过一次又一次的爆发,但为什么不是所有“大”数据都被称为“大数据”?我们常听说的“大数据”,究竟是什么样的数据?
大数据是什么样的数据?
(一)“大”数据,高量级
大数据的“大”。毋庸置疑,这个“大”相对于人类传统数据的储存方式,不是一个量级上的大小之分,而是几何量级的差距。百度地图平均每天会收到720亿次定位请求,百度搜索平均每天收到60亿搜索请求,再想想互联网上每天有多少次点击、社交媒体上每天有多少文字和图片发出……各种大数据平台一天之内收集到的数据量就可以超越人类几千年来文字、图像的总和。
(二)多维度,细粒度
大数据的另一个重要特点是多维度。多维度代表着大数据可以对一个事物进行多方位的描述,从而更准确。社会像素得到了高速提升,这成为了数字化生活与以往最大的不同。以往粗糙的数据被拆解为更加精细的像素粒度,在像素的基础上,我们可以描绘个人,描绘组织,描述社会,形成一幅繁复的全景画像。
以金融征信应用为例,传统金融机构在进行征信时,一般采集20个维度左右的数据,主要包括年龄、收入、学历、职业、房产车产、借贷情况等。然后综合评分来识别客户的还款能力和还款意愿,决定信贷额度。
互联网公司采用大数据方法,所获得的数据维度是传统银行的成千上万倍。BAT都开设了自己的金融服务,因为拥有全面且巨大的用户数据,可以查询客户的各种线上记录,比如是否有批量申请贷款等异常行为;还可以将客户信息与互联网全局信息进行对比,通过欺诈行为模式的比对分析其可信度;更进一步,还可以分析客户的消费行为和习惯,结合填报收入分信息还款能力如何。当然,作为用户的隐私数据,这些数据都不会被公开,用户所能感受到的便利是征信排队时间极大地缩短了,因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核,迅速核对数万个指标维度。
对一个陌生人进行征信就好比“盲人摸象”,传统方法是通过20个盲人去评估一个客户的信用大象,注定是有缺陷的。而大数据的多维度就如同几万人同时“摸象”,再把这几万人的反馈汇总到一起。维度越多,结论就越准确。
(三)非结构,高蕴能
结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现,处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。比如对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%蕴含巨大能量,应用前景广阔。
例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。
大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据,大大提升了数据维度。
(四)时间性,重复性
大数据是生生不息的流,具有时间性。在微观视角,对于同一组数据而言,它过去就不再回来,就像人无法两次踏入同一条河流。这一方面是以内数据量太巨大,无法全部存储;另一方面是大数据和人类生生不息的行动相关,瞬息万变。
但在宏观视角,对于所有的大数据而言,它的“大”表现为无穷无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人类周而复始的运动,才让系统能捕捉城市运动的规律。“重复”的数学意义是“穷举”。以往人类无法通过穷举法来把握一个事情的规律,只能采用“取样”来估计,或者通过观察用简单明了的函数哎代表事物规律,但大数据让穷举法这种“笨办法”变得可能了。
“大”数据VS“大数据”
前面我们已经提到,数据量大的“大”数据并不一定是大数据,在应用时与大数据也会有显著的区别。
《学摘》成功预测了1920、1924、1928和1932年的美国总统选。1920年的调查范围只有6个州,随后调查的范围逐步扩。1936年,《摘》进了次最具雄的民意 调查,调查1000万,可谓是一次“大”数据。结果显示57%的支持兰登,只有43%的支持罗斯福。但罗斯福却以史上最的优势(61%的得票率)当选总统,为什么?
失败的原因有很多,其中最主要的原因是抽样框选择不当。这次调查的调查对象是从电话簿和车牌登记名单中选出的,这个抽样框排除了接近65%的总体元素。这些被排除在外的多是低收者,他们中的多数都支持罗斯福的新政。
可见,在抽样获得的“大”数据中,如果抽样框是错的,样本容量再也济于事。而舍恩伯格在《数据时代》书中指出,数据相对于传统数据的个本质特征就是数据“不是随机样本,是全体数据”。互联网时代的数据分析,则主要基于全网的“全体”数据,非抽样获得的“样本”数据,避免了抽样框误差。
我们前面反复讨论的大数据,其实是类为留下的电化的为痕迹。大数据分析的数据来源于电子媒介记录下的行为痕迹,大数据分析技术让人们有能力去基于行为痕迹库的总体数据去展开分析,这是一次分析能力的飞跃。
同时,大数据分析还享受着非介性研究(nonreactiveresearch)的优势。由于其研究对象是人类行为留下的电子化痕迹,是在研究对象意识的情况下进的研究,所以能有效地避免霍桑效应,获得更加真实、准确的结论。
大数据是完美的数据吗?
纵然大数据集聚众多优点,但它仍然不是完美的数据。
(一)多个体,少变量,数据关联难
大数据虽然能够捕捉许多个体在不同场景下的行为痕迹,但是在同一场景下,可以捕捉到的变量却比传统数据更为有限。在传统的访谈调研或者问卷调研中,研究者可以根据自己的需要设计变量,但在大数据分析中,研究者对于变量的选取显然更加被动。在搜索场景下,研究者只能获得与搜索行为相关的变量;在社交场景下,研究者只能获得与社交行为相关的变量;即使是同一个体的行为,由于技术平台的分割性,研究者很难将不同场景下的数据关联起来,形成多变量的数据。即使同一个体能够产生多维度的数据,但如何捕捉和关联更多的维度,却仍然是一个不易解决的问题。
(二)沉默的螺旋,造成覆盖偏差
互联网的使用虽然已经风靡全球,但仍然有一部分群体处在互联网的边缘之外,即使是在互联网的使用者中,也同样存在边缘化的使用者和沉默的使用者。用户可以选择在网络上保持沉默,隐匿身份,其表现与在现实世界可能会截然不同。当研究者试图收集大数据时,往往会得到那些活跃的、开放的用户的数据,但在互联网的冰山下,还隐藏着大量未被发掘的信息。研究者只得到数据中庞大的一隅,虽然它的量级已经令人叹为观止,但不可否认,在网络上,还有大批量的沉默者,他们存在着,他们行动着,但这部分群体的数据却始终处于缺失状态。这种情况对研究者所下的结论会产生一定程度的误导,而使人在深思时去质疑研究的客观性和合理性。
(三)非介入性研究,存在伦理争议
大数据的捕捉和分析,往往是在用户不知情的情况下进行的,这与传统的研究精神并非不谋而合。在传统的心理学等研究中,训练有素的研究者将会确保被试知情并同意后才会展开测试和研究,但大数据的分析显然并非如此。
时代的发展和个体的利益虽然是不可分割的命运共同体,但在微观层面却仍然存在着这样的冲突。即使大数据是有缺陷的数据,人们仍然不确定,离开了大数据,我们的社会进步是否会倒退多少年。在技术进步面前,人们没有选择,只有奋力前行。因为技术不是外来者,正来自人类生产创造本身,和人类的存在同呼吸共命运。