四个月前,《网络安全法》以及最新刑事司法解释正式施行,信息安全尤其是个人隐私保护问题被上升到了一个新高度,当时写了《分水岭:6月1号起,大数据进入下半场!》。
几个月过去了,据媒体报道,有数十家做大数据的公司因涉嫌数据信息安全被约谈或者协助调查,很多数据查询访问接口关停,有人惊呼"大数据行业进入冰封时代"。
但更多的大数据从业人士认为那些倒卖数据的企业是挂羊头卖狗肉,对大数据的名声和产业空间伤害非常大,对整顿拍手称快,认为唯有如此,才能让大数据产业走得更远。
喧闹过后,要冷静思考。不做倒卖数据出售隐私信息,生意应该如何做呢?这不是简单的问题,而是大数据产业的战略选择。
首先要想明白的,是去"赚大钱",还是"挣小钱"。
【做平台是要赚大钱】
透过大量的多维度的数据分析,可以洞察以前看不到的世界,可以挖掘出事件的真相;谁拥有了海量数据,就拥有了主宰未来世界的武器。数据越多,价值就越大,这是大数据产业的共识,不仅可以通过海量数据进行交叉分析,而且数据是可以重复利用的,一份数据可以同时为多个企业提供服务,因此可以呈现出更高的商业价值。
理论上,如果一个平台能提供足够的基础数据,那这个平台太有价值了。
然而,什么才算是足够的数据呢?举个电信运营商的例子。
十六年前,中国移动集结了数据仓库和应用分析领域的优质资源,开展两级经营分析系统的规划和建设。当时建设理念就是做个大平台,将所有的数据都放进去,为企业的经营管理提供数据和分析服务。
在系统里存放着基础信息,比如数亿的客户资料、账单;存放着扩展信息,比如这些客户的行动轨迹、使用终端;后来还有客户画像,基于客户的历史信息打上各种标签。
从规模来看,中国移动的经营分析系统曾经是全球数据量最大的数据仓库体系。
然而如今看来,这些数据并不够。
如今的数据分析多是围绕流量进行的,这就需要将用户的上网信息纳入到数据仓库里,要把用户的每一条上网信息、每一次上网行为都记录并保存下来,需要消耗的资源比话音业务大得多。但这样做还不够,从业务侧来看,还应该记录下用户访问过的网页内容,还应该记录下用户的操作(比如在哪个电商那里购买了什么商品);从网络侧来看,还有信令、路由、质量、效率等数据需要采集;从企业管理角度,财务数据、供应链数据、人力资源管理等数据和信息也是必不可少的。
数据规模并不是平台建设唯一的挑战。数据来自于各式各样的IT系统,要纳入到大数据平台里成为可用的数据,需要进行格式转换和数据加载。数据的多样性决定了ETL等工作的复杂度,有的数据量不大,但处理起来的工作量可真不小。
对大数据平台来说,要维持平台能有高价值的产出,就必须保证数据的完整性和有效性,没有数据或者数据不全,平台的价值就会迅速下滑。然而要维持数据的完整性和有效性,不仅建设大数据平台需要前期投入巨大的资源,在后续的运营中,随着数据规模和种类的不断增长,也必须不断补充新的资源。
所以说,做大数据平台是个砸钱的买卖。没有足够资源支撑的话,做不了大数据平台;而如果不能有效降低数据的获取成本,大数据平台也难以维持。正因为如此,那些自己能产生数据的企业(如电信运营商、互联网企业)做这门生意比独立的第三方企业更有优势;而从企业规模来看,大数据平台往往是大企业才能玩得起的游戏。
相应的,大企业的组织成本高,对商业盈利的期望值也高——投入这么多资源,如果难以带来足够的产出,大数据平台的经营压力可想而知。想办法多做项目,增加收入,做大数据平台不仅要考虑降低成本,还要体现价值,体现出高价值,可真没那么容易。
【做应用可以挣小钱】
从沃尔玛的"啤酒和尿布"的故事,再到涂子沛书中描述的各种大数据场景,老百姓能看懂的都是具体的应用案例,同样,打动决策者不是靠宏大的概念框架,而是要与具体业务相结合。
很多大数据从业者都善于利用场景案例来介绍利用数据可以做的事情。比如对企业来说,可以推行个性化客户关怀、场景化精准营销、精细化运营管理;对政府来说,可以进行城市安全管理、资源合理分配精准调度等。
企业的决策者对实实在在的应用认可度高,政府的管理者被实实在在的案例说服,不仅因为这些应用与行业和实践结合得紧密,更容易体现出大数据分析的价值,也因为这种针对性的应用有明确的产出,看得见、摸得着。
比如精准营销,先根据产品的特点,勾勒出其潜在客户的特征属性;然后将这些属性与客户画像里的标签信息进行匹配,寻找目标客户,选择适当时机以适当方式向其推送产品。由于推送的客户是事先筛选过的,因此营销成功率得以提升,对客户的骚扰程度也有所降低,经济效益很容易做得非常赞。
因此那些围绕具体业务做小应用的企业非常受欢迎,投入少,见效快,谁不希望找到这样合作伙伴来玩时髦的大数据呢?
但是计算大数据应用的投入产出,往往会忽略这样一个问题:应用的成本除了算法、应用等显性投入之外,还有数据获取成本、试错成本等,如果把这些都算上,应用还赚钱么?
分析应用所用到的数据只是大数据平台的一部分,计算成本时只考虑其所调用的数据成本,这不合理。算法和模型往往是要花很大代价才能训练出来的,大数据平台不能是应用所需要的数据的最小集,这就像不能因为吃第十个包子饱了,就只计算第十个包子的成本,而对前九个包子视而不见。
还有一种错误的计算投入产出比方式,就是把一个模型案例推广到所有产品,比如某产品进行精准营销节约成本20%,以此类推,可以节省公司营销成本XXX万元。实际上,如果将精准营销拓展到其他产品时不能照搬原来的东西,需要重新建模,重新匹配数据,换句话说就是要再投一笔钱才能做到场景重现。所以这种计算方法也只是唬人,并不合理。
所以说,基于大数据平台做小应用,貌似某个应用赚钱了,但如果将整个成本进行分摊,就会发现经济效益并非那么理想。反之,如果仅仅基于应用去采集数据开展运营,其扩展性就非常差,难以实现更大价值。
有趣的是:如今很多大数据的案例,都是一边要投入巨大资源建设大数据平台,一边靠零散的小应用产出来讲故事,总体看大数据产业入不敷出,难以持久发展。
【未来的盈利模式】
以《网络安全法》为代表,国家严厉打击倒卖客户隐私信息的行为,斩断了数据简单变现的发展模式,目的是推动大数据产业持续健康发展。然而从大数据产业发展的视角看,如果产业链的各个玩家不尽快做出战略选择,那么未来也是死路一条。
做"大而全"的大数据平台是赚大钱的生意经,核心价值是数据完整性和有效性,其价值体现则有直接和间接两种。
由于不能直接售卖个人数据和信息,因此数据变现多以行业报告的方式呈现出来,这将成为平台直接创造商业价值的重要手段。虽然数据来自于个体,但是由于报告呈现的是宏观整体数据,收益也是汇总加工之后产生的,并不受单个数据的影响,完全可以规避法律风险,成为大数据平台名正言顺的收入。
而且,如果大数据平台里有相应的数据,不排除根据企业的要求为其提供指定的"竞品分析报告",比如运营商的大数据平台给腾讯做一份优酷视频的使用情况分析报告,也是合法的生意。
除了发布或提供报告,大数据平台的价值更多地通过间接方式来实现,也就是为数据分析应用提供数据服务。所以致力于建设大数据平台的企业要做好与应用企业的协作,如果应用发展不起来,大数据平台也活不下去——光靠卖报告是养不活大数据平台的。
大数据玩家的另一种存在方式就是做应用,相信未来会有很多以此为生的小而美的企业。这些企业或者在技术(算法、模型)方面有过人之处,或者在业务(营销、运维)方面有一技之长,总之是靠突出的专业性优势而存在,同时由于规模小,成本低,因此可以快速呈现价值,也可以快速调整以适应变化。
无论是做大而全的大数据平台,还是做小而美的应用企业,适逢大数据发展的热潮,都有成功的机会。但这是两类不同的发展模式,笔者很难想象什么样的企业能将这两个角色融为一体,换句话说,就是大数据产业的玩家要清楚自己的战略定位,明确自己的选择,知道什么是应该放弃的,才能涅槃重生。
如果两边都舍不得,其结果很可能是竹篮打水一场空。