我为什么反对大数据? – 作者:secisland-安全小百科

精彩观点：

在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值
在中国，绝大多数的公司是没有太多数据的
现实的情况往往是数据只能验证现在，数据无法预见未来
一切不以解决业务为出发点的技术都是耍流氓
很多时候数据并没有我们想象的这么值钱，尤其是互联网上很容易采集到的数据
大数据应该是从小数据逐渐演变上去的，是一个正常的生态，而不是瞬间变化的

声明

个人言论，本文仅从另一个视角看待大数据，如不能理解请一笑而过，勿做无谓的拍砖，仅此而已。

引言

现在很多人都热衷于把大数据放在嘴边，但你要问一下什么是大数据，大数据和你有什么关系？估计很少人能说出个一二三来。

究其原因，一是因为大家对新技术有着很深的原始渴求，至少在聊天时不会显得很“土鳖”；二是在工作和生活环境中真正能参与实践大数据的案例实在太少了。

一、什么是大数据

最早提出大数据时代到来的是麦肯锡，他说：

“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”

1616142436_60546064595d000de842c.png!small?1616142437027

IBM 最早将大数据的特征归纳为4个“V”，即：

体量Volume，数据体量巨大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）

多样Variety，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等。

价值Value，价值密度低，商业价值高。

快速Velocity，处理速度快。这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征，下面这张图对大数据的一些相关特性做出了有效的说明。

维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证，都是为了说明一个道理：

在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价

书中，作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值，比如预测某地流感爆发的趋势；

Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐，以此有效提升销售量；

Farecast如何利用过去十年所有的航线机票价格打折数据，来预测用户购买机票的时机是否合适。

书中提到大数据的核心是预测。有三个思路的转变：

不是随机样本，而是全量数据；

不是精确性，而是混杂型；

不是因果关系，而是相关关系。

二、现状分析

根据国家统计局2019年11月20日发布的《第四次全国经济普查公报（第二号）》中显示：

2018年末，全国共有第二产业和第三产业的企业法人单位1857.0万个，比2013年末增加1036.2万个，增长126.2%。其中，内资企业占98.8%，港、澳、台商投资企业占0.6%，外商投资企业占0.6%。内资企业中，国有企业占全部企业法人单位的0.4%，私营企业占84.1%。（如下图）

这个数据说明了中国绝大多数的企业都是中小企业，在这种情况下，有多少企业有海量数据呢？

我们换个角度再看看以下数据，我们搜索一下国内几个典型客户的网站排名情况（查询网站是alexa）。

国内某知名财务软件公司：

1616142647_60546137e0ce1b695cf68.png!small?1616142648371

国内某知名IT解决方案服务公司： 1616142659_605461431f17eaf0ef1a9.png!small?1616142659310

国内某排名前列网络安全防护公司：

1616142670_6054614e5bd7829c1c197.png!small?1616142670477

从中可以看出拥有的PV最大，也就是一天63000个，一年的数据量也就是2300万，再加上别的数据，数据的量级也就是G级别的，还远未到T级，更别说P级了。

在这个量级上，一台好点的 PC Server 就可以处理完成大部分的需求，如果考虑到可靠性最多需要两台。

通过上面的分析，我们可以发现：在中国，绝大多数的公司是没有太多数据的。

三、大数据的核心价值

1616142731_6054618bd82447aad2368.png!small?1616142733351

《大数据时代》中提到的大数据的核心价值是预测，但我们提到大数据时，往往提到的都是大数据技术，比如Hadoop、Spark、Storm、Hbase、Hive等等，人们对此的讨论总是乐此不彼。

但现实的情况往往是数据只能验证现在，数据无法预见未来！

举个最近的例子：

大数据告诉我们股市暴跌后必然有反弹。于是6.25大跌后，大家都认为周五必然有一个反弹。结果周五就被庄家们狠狠的教育了一把。

6.28的双降（降息，降准），所有都说周一6.29会上涨，可周一中国的庄家让散户们明白，数据和经验只是你的一厢情愿，他不会给你一丝的喘息机会。

一切不以解决业务为出发点的技术都是耍流氓，计算机技术的发展是非常迅速的，往往一个技术可能没有多长时间就会被淘汰或者升级。

如果没有业务场景作为支持，纯粹的学习大数据的技术是没有太大价值的，笔者崇尚的是学以致用。

因为大脑有个很明显的特征是健忘，如果用不到，学这些技术过一段时间就会忘记，还不如暂时不学，等后面需要用到的时候在学（原理基础知识等除外）。

四、数据真的值钱吗

1616142784_605461c048b7ff4ce0d6b.png!small?1616142785685

很多时候数据并没有我们想象的这么值钱，尤其是互联网上很容易采集到的数据，比如：爬虫这个东西。

我一开始不是太懂，但是花点时间，基本上通了，无论是用Python自己写一个，还是直接用现成的各种软件，都是很快就可以部署并开始采集。

中国有大量的程序员，还有的稍微懂点编程的计算机爱好者，另外爬虫软件的出现可以让一个新手随便花点时间就可以学会采集。所以采集的门槛在降低。

另外，数据的可复制性导致其廉价，尤其是非结构性的数据，从现在互联网上大量的转载文章就可以看出知识的传播复制是非常廉价的。

数据的利用才是有价值的。比如：

一个老板，他每天看几十个零散数据放到他面前，但是却没有把行为数据和商业数据的关系告诉他，有什么用呢？

一个公司CEO，每天看到几十个数据，什么PV、PU、UV等等是没有意义的。

对于他们来说，只需要知道有问题吗？问题是什么？有新的发现吗？需要做什么？这就行了。

五、大数据的泡沫

1616142836_605461f43d0b3c7c29ea7.png!small?1616142836450

伯克利的Jordan教授给出了答案，他是机器学习世界范围内最被尊敬的专家之一（下面的翻译来自知乎上的作者Quinn Sure）。

目前的大数据给出的结果可靠性太低，如果急于应用到实际中，就好比是土木工程都没学好就开始造桥，结果只能造出“豆腐渣工程”。

一大波“false positive”（假阳性）正在接近，因为数据增长的速度不够支撑我们把大数据到处乱用的欲望。作为一个科学，不够严谨（原文是“没有error bar”）。不像造桥的土木工程，经过多年的积累，明确地能告诉我们什么样的情况可以造，什么不可以。而大数据没有。
目前在computer vision领域进展还很小，只能在非常有限的范围内识别，比如人脸识别这样非常具体的引用（虽然这个不是直接说大数据，但是可以看出，作者认为真正做到万物都sensor还很远，大数据的采集能力终究还是有限的）
neural network根本和人脑的neural network不是一回儿事，我们对大脑的理解根本没到可以引用到计算机科学的程度。

现在deep learning所采用的back propagation技巧，明显不是大脑的运作方式，network的结构都完全不同，什么对数据的模糊性处理已经达到人脑的境界云云，主要是媒体扯谈。

对他观点的总结：

有些媒体为了让公众容易理解，打了些比方，但是这种比方造成了太多误解，进而造成了太多hype（夸张的大肆宣传）。

大数据还是一个没有足够严谨程度的科学，可能有一定的概率做出一些有用的预测，但是使用不当，过分过早地依赖，则会造成灾难性的后果。

很多时候大家过早对一个技术爆发热情，寄希望它可以改变世界，如果短时间没有成果，有可能热情一下子转冷又觉得这是个错误，加速抽离给这个技术的资源。

显然Michael很担心现在公众对这个技术的热情，并不是基于对这个技术的理解，从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的，很多重要的应用，假以时日，是会创造价值的。但是现在很多媒体宣传，甚至投资行为，都是泡沫。