这篇文章其实是以前在QQ空间中的一些与读者评论互动的归纳,大致上表达了我对“大数据”的态度。
=============
Sphinx_z /ty
令我想起了“大数据”热。
我
其实我还真的就拿了“大数据”里的例子举出来给那应聘者听。“大数据”那东东虽然也是忽悠,但好歹人家忽悠得挺成功的。
听海
大数据如何忽悠?历史数据虽然不能作为预测标准,但说它是偏好是确定无疑的吧,例如某商家历史的商务数据,不可能突然变得和以前一点联系都没有了吧?求分析!
我
有个关于“大数据”的神话,说通过淘宝的大数据分析,发现买泳衣最多的不是靠着海的海南,而是远离海的新疆。要不是有大数据的帮助,用常识与直觉根本不可能想得到原来新疆对泳衣的需求量远胜于海南。这不是一本正经的瞎说吗?海南那种地方街边都可以买到泳衣,当然不需要上网去买;新疆那种地方不上网能上哪买泳衣?根本不是海南对泳衣的需求量少于新疆,恰恰是新疆对泳衣的需求量大大低于海南,所以在那里没有大量稳定的供应,导致消费者有需求时只能求助于网购,呈现出来就是网购的绝对量反而是新疆大于海南。生产者要是真的蠢到相信这种垃圾数据,向新疆大量供应泳衣,就等着被市场收拾吧!
没有经济学的理论逻辑与对事实知得多的经验丰富,盲目相信什么大数据,不又成了弗里德曼早就批评过的“Garbage in garbage out”?
这个例子就是搞大数据的人拿来忽悠客户要他们上大数据的啊。你看你看,要不是有大数据,你凭直觉常识不会知道这样的结论啊,所以必须上大数据啊,巴拉巴拉。但问题是这个数据根本没意义。因为你在淘宝卖东西的话,不需要知道买方是在海南还是新疆,这个所谓“出乎意料之外”的结论,不但对非淘宝卖家没意义,其实对淘宝卖家也没意义!你还是半点没明白那些贩卖大数据的人是怎么拿这个例子去忽悠人的。
听海
如果他们是这么说是真忽悠,我肯定不会接受这样的忽悠。大数据本身也得是特定条件下才有用的数据,这个必须承认。
我
关于大数据还有另一个忽悠版的神话,就是说美剧《纸牌屋》的成功是大数据的功劳。因为拍这电视剧的家伙利用大数据调查出美国人最想看某男星与某女星合作,于是就找了那个男星来做男主角,那个女星来做女主角。但其实这电视剧的成功仔细分析一下就明白,剧本的成功是关键。这个电视剧相当于是美式“宫斗剧”,人性谁不爱看宫斗剧?中国人爱看古装宫斗剧,香港人爱看豪门恩怨(现代豪门版宫斗剧),美国人当然也会爱看美式宫斗剧。然后只要主要演员的演技有相当水平,能演绎出那种黑暗人性,即使不是那两个男星女星合作也一样大受欢迎。例如我就不相信换由《绝命毒师》中演有“炸鸡奥巴马”之称的黑帮老大那个演员去演此剧的男主角,此剧就不会成功。
听海
卖产品那种的,纯拉人头收钱的暂不讨论。
我
你不讨论这些还有啥好讨论的?分析统计数据来做判断早就有,不是大数据出现才有的。大数据能有什么特别之处?不过是数据量更多而已。数据分析的关键始终是经济理论的逻辑与掌握事实经验的能力,能从表面的数字看到其背后的经济含义。而且数据量多完全不等于精确性上升、有利于提高判断的正确性。
web大魔王
仅凭数据本身,不分析数据的来源和实际情况就发表意见,就应该是瞎说和忽悠吧!
听海
纸牌屋这个忽悠真不知道,我敢肯定的是任何东西,只要基础做得好,成功是大概率的事情。如果剧本太烂,即使演员演得好,号召力强,最多能忽悠一次。我是不相信这跟大数据有关系。
=============
后来在百度帖吧又有一场讨论:
=============
猫咪乖贝贝
像是腾讯的创新更多是积聚于一种产品创新,这是它成功的原因,所以它有最好的产品经理之称,但是未来更多的是数据为王,因为它涉及到更精准的广告推送,看过一个例子么,亚马逊通过对数据的掌握比他父母和自己更快知晓了它怀孕的消息。
我
你就别迷恋大数据了。“上将”就是做大数据这一行的,他还不清楚这里头的猫腻?那些什么亚马逊的美妙“例子”听听就好,别相信这种神话啦。
上将马弓手
那个怀孕的例子是经典例子(不是亚马逊),还有一个啤酒和尿布也是经典例子,另外还有个例子说亚马逊用了大数据推荐以后的销售额提升了30%,还有忘记是哪个网站了每年支付100万,评比最准确的推荐系统。你要说例子我能列出很多例子
猫咪乖贝贝
我说的是广告推送的精准。就是根据数据进行用户分析的。
上将马弓手
没错啊,我说的也是广告推送,就是recommendation algorithm
但你知道系统是怎么评分的吗?他们把历史数据划分为2块,一块叫训练集,一块叫测试集。训练集用于机器学习,测试集用来测算推荐系统的推荐准确程度。这个模式你是不是觉得很眼熟?就是风水派做法
有很多例子证明推荐系统有多“神奇”,但是京东以前中过招,有用户发现他去买个平底锅,系统给他推荐一套音响!这事推销系统的人就不会告诉你了,他们只会说他们推荐“对”了多少,至于“错”了多少就不说了
我毕业论文就是这个,你知道推荐的原理是什么吗?亚马逊当年的算法是协同过滤,就是把所有用户的数据列出来,看两个人买的东西比较像,就认为两个用户相似,所以一个用户买的东西可以推荐给另一个人。后来又有了一些其他算法,比如基于内容挖掘,其实就是概率论和统计学
我当年的毕业论文写的是另一种算法,测试结果显示比以上两个都要准,但你知道我用的是什么算法吗?名字叫“基于二部分图的推荐算法”,是不是很高大上?告诉你吧,其实原理来自于物理上的“分子热运动”,只不过我把人和商品换成了分子。用历史数据测试,结果发现比他们2个都要准
但你承认你买东西的行为是分子热运动吗?
大数据确实有他的用途,并不是一无是处,但不是那么用的。有些决策使用了大数据以后的确会更加精准,打个比方,老板根据每月统计分析现状做决策,但是有了大数据以后,可以把数据精准到天,提高决策实时性和精度,这的确是有用的。但是实施过程会有很多问题,首先你得有精确到天的数据(这个大数据不提供,他只提供统计结果),第二这么精确地对能多有用(也就是你得考虑成本和收益的大小),第三你得考虑实施的难度,这里面有硬件要求,第四你得考虑系统未来的维护。有很多问题的,中招者无数
想起来了,每年100万奖金那个是netflix,但是推荐如何成功?他们2011年大奖得主说的很清楚:算法不重要。因为可以模型化的数据不到50%,有很多模型根本无法解释数据。
百度也曾提出,一个推荐系统要成功,ui占40%,数据和知识50%,算法只占10%。也就是说一个算法精准的系统不如一堆有丰富经验的专家和漂亮的界面来得靠谱
=============
其实对“大数据”的迷恋早在这个概念产生之前就存在了,那就是在股市之内!因为早在互联网普及之前,股市就已经能容易地产生海量数据,依附于这些数据而形成的投资学派就是“图表派”,后来加入电脑之后进一步发展出“量化投资”的方式。但它们都摆脱不了大数据在本质上是无视背后的局限条件僵化地以历史推断未来、很容易陷入精确地错的困境的问题。以下是另一处与读者评论互动的内容,就是围绕着这个股市的情景展开。
=============
Mr.Zhang
想推荐一篇文章,介绍作者寻找股市技术指标,很久后想到了可证伪性,意识到过去的价格代表不了将来的,之后改变了分析思路的历程。逻辑分析没什么问题,内容比较丰富精彩,和博客以前提到过的诸多内容不谋而合,如不能用事实(过去的价格)来解释事实(未来的价格),量化交易发展到极致最怕黑天鹅的出现等。文章名字是《找一种独特技术指标的组合形成自己的交易系统,那也是我曾经的梦想》,虽然其中很多东西都有了解,整体还是很有看点的。
我
看了,文章前半部分关于作者苦苦追寻投资决策模型的部分写得不错,后面的“觉悟”就明显还是半吊子的水平。虽然作者明白了具有可证伪性才是科学,但还是没明白演绎与归纳都只是寻找规律(理论)的不同途径,本身并不是科学。把演绎与数学等同起来以为数学就是科学更是错得离谱。科学也不是永远不错,只是暂时没发现是错的而已,与他所理解的归纳是一样的级别。
其实只要懂经济学,完全可以绕开他那些前面的弯路与后面的苦思而直接得到结论:想找到一个稳赚不赔的股市致胜法宝,就跟想在物理学上制造出永动机一样是痴心妄想。因为理论上,你能想到的,别人也能想到(没有任何生物学理论可以保证你的脑子智力远超所有其他人),那就没有了阻止外人进入的门槛,则不要说永远赢不可能,胜率长期高于市场的平均水平都是不可能的。竞争消散一切高于成本的租值,这是“零利润定理”的终极意义。
=============