互联网公司的大数据劣势
(1)数据局部性:互联网公司的数据还是相互割裂的,比如淘宝只有淘宝的售卖数据,京东也一样,即使淘宝联合京东,他也只有在线销售的数据,它并没有百度搜索的数据,没有一家互联网公司的数据能够代表全局,具有战略眼光的互联网公司当然意识到这一点,当前的收购兼并相当程度是为数据而来。
(2)数据割裂性:互联网的数据整合困难,比如你在百度搜索了裤子,又在淘宝买了裤子,你的行为数据在两个地方以不同的形式存储,百度用了张三ID来代表你,而淘宝会用李四ID来代表你,但谁都不知道这是同一个人,还有广告个推的COOKIE等技术,也是短期的,不稳定的,当前大家都看得到很多互联网业务都依托QQ账号注册,非常方便,其实一定程度也反映了QQ希望ID融合的思路,互联网公司数据建模中的一个核心就是各类数据ID的统一。
(3)数据封闭性:很少有互联网公司愿意开放自己的数据,毕竟这是他的资产,是核心竞争力所在,因此所提的开放更多是商业模式层面和应用层面,而绝对不是指数据,“你来合作,数据给我”,现在互联网公司还是更多的在搜集数据,即使开放了一些,主要也是一些高度收敛的数据,当然一些互联网公司会相互合作交换数据,但这与开放无关,当前环境下,如何让互联网公司能够开放共享数据,从而推进社会的进步是值得研究的课题。
(4)数据全面性:在客户、业务、时间、空间等多个层次上,互联网公司的数据受限于自身的业务,其数据的范围和深度都是有限的,某宝也许对于线上购物用户有一定的刻画,但对于搜索领域、社交领域等很多互联网领域的信息仍然一无所知&