社计文库|大数据究竟是什么?
发布于 2021-10-10 14:46
前言
如今「大数据」已经成为学界和日常生活中越来越炙手可热的概念,彷佛我们身边的一切都可以归结为「大数据」。那么,究竟什么是大数据?它的定义是什么覆盖范围又是哪些?大数据是如何形成的?当今的大数据又有什么特点?
一.大数据的定义
首先,什么是数据?数据最早的来源,是测量,所谓“有根据的数字”,是指数据对客观世界测量结果的记录,而不是随意产生的。测量,是从古至今科学研究最主要的手段,可以说,没有测量,就没有科学,也可以说,一切科学的本质都是测量。也可以说,世上本没有数,一切数据都是人为的产物。而进入信息时代后,“数据”二字的内涵开始扩大,它不仅指“有根据的的数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等等。需要注意的是,这些信息形式并非由人们专门测量得来,还是对周遭的直接记录。因此数据来源便有了两个,即测量➕记录。
那么,作者对大数据的定义便很明晰了:现代大数据=传统小数据(源于测量)+现代的大纪录(源于记录)。这可以看作是作者对「大数据」定义的一种解释,但这在学界「大数据」并没有一个统一的定义。为了更好的辨别它,我们可以引入一些其他人的解释来加深理解——
1. What is “Big Data”?
a)A messy collage of points collected for disparate purposes and can be updated in real time.
b)Data-fication: taking all aspects of life and turning them into data (e.g., quantifying FB “likes”).
c)Reconstructed, unprocessed (raw, ‘dirty’) instrument data.
2. Wikipedia: 大数据是指利用常用软件捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
3. 3V定义:
a) Huge in volume, consisting of terrabytes or petabytes of data.
b) High in velocity, created in or near real-time.
c) Diverse in variety in type, structured and unstructured in nature, and often temporally and spatially referenced.
那么,大数据的定义为什么重要?
计算社会学作为一种社会学研究的新范式,计算社会学的研究对象主要集中在宏观经济社会现象和复杂网络现象与社会过程,往往使用社会网络分析、仿真建模、机器学习以及高级计量模型或实验等手段对大数据和多来源复杂数据进行研究。
二. 大数据的来源与特点
摩尔定律是英特尔创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月便会增加一倍。换言之,处理器的性能每隔两年翻一倍。而目前的现实也基本验证了这一点,在2021年的今天,手机芯片已经全面进入5nm时代,Apple最新的A15仿生芯片更是拥有150亿个晶体管,其神经网络引擎每秒可以进行15.8兆亿次运算,这在十年前都是不可想象的。与此同时,晶体管的价格却在飞速下降,这也为大数据的存储提供了良好的条件。
摩尔定律导致的另一个结果就是各种数码电子设备越来越小,各种可穿戴设备层出不穷。需要注意的是,这些设备体积虽小,但计算能力却空前强大(例如上文中提到的A15仿生芯片)。这也使人们手机数据的能力得到了质的提升,我们日常生活中无时无刻都在搜集数据,这样也就产生了海量的数据,造成了数据的爆炸。
但人类数据的真正爆炸发生在社交媒体的时代。
2004年起,以Facebook、Twitter为代表的社交媒体相继问世,拉开了一个互联网的崭新时代,这个新时代,被称为Web 2.0。这也就为全球的网友提供了一个平台,每个人都可以在这个平台上记录生活,也就是贡献自己的数据,造成了数据量的爆炸。除了数据总量骤然增加,社交媒体还让人类的数据世界更为复杂,大家发的微博、图片、视频,大小和结构完全不一样,因为没有严整的结构,这种数据也被称为「非结构化数据」。在这种前所未有的数据生产速度之下,社交媒体的出现虽然还短短不到10年,目前全世界的数据已经有约75%都是非结构化数据。因此,作者认为 大数据=结构化数据+非结构化数据 。
除此之外,大数据之大,不仅在于它的大容量,更在于它的大价值,价值在于使用,即人类目前强大的数据挖掘能力,例如亚马逊的“预判发货” (Anticipatory Shipping),即在网购时,顾客还没有下单,亚马逊就寄出了包裹。
综上所述,可以将作者所理解的大数据做一个总结:
![](https://weixin.aisoutu.com/cunchu4/4/2021-10-10/4_1633851216872.png)
同时,如前所述,我们仍引入大数据与先前的“小数据”的对比来丰富对大数据的解释:
1. Big data viewpoints
a)Huge in volume, consisting of terrabytes or petabytes of data.
b)High in velocity, created in or near real-time.
c)Diverse in variety in type, structured and unstructured in nature, and often temporally and spatially referenced.
d)Exhaustive in scope, striving to capture entire populations or systems (n=all)
e)Veracity arising from bias, noise, abnormality, and questions of trustworthiness.
f)Fine-grained in resolution, aiming to be as detailed as possible.
g)Flexible, holding traits of extensionality (add new fields easily)
h)Rapidly scalable (expand in size quickly).
2. Small data viewpoints
a)Small enough for human comprehension.
b) Could be very large (e.g. petabytes of data) BUT do not meet the 4 V’s criteria.
c) Can reasonably be handled on computers used in day-to-day life by “normal” users.
d) Has a specific purpose.
e) Capable of impacting decisions in the present.
作者:
秦嘉威 兰州大学哲学社会学院
参考文献:
[1] 陈云松. 中国计算社会学的发展:特征、优势与展望[J]. 湖南师范大学社会科学学报, 2020, 49(05): 1–10.
原文献链接:
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2014&filename=KXSY201401002&uniplatform=NZKPT&v=14H1%25mmd2BdVg7Sk0oCDWzkLPbu56OBDNYjBjyvOI2fj96ozpqGV8BUjtE2FJ3D%25mmd2BCuh7X往期回顾:
社计文库 | 大数据为何是智能社会的“石油”?
社计文库|陈浩 推动社会心态研究迈向大数据化
社计文库|陈云松 服务“国之大者”:大数据时代社会学定量研究创新
社计未来
本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。
相关素材