大数据
wide288
头脑的清醒更有利于高级思维的活动。
展开
-
Big Data技术综述
原文出处: 程序员 Big Data(大数据技术)是近来的一个技术热点,但从名字就能判断它并不是什么新词。毕竟,大是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。然而,Big Data作为一个专有名词成为热点,主转载 2014-03-12 14:05:22 · 1128 阅读 · 0 评论 -
读《贝叶斯方法》
加拿大,Cameron Davidson-Pilon2017年1月第1版此书依赖库:PyMC, NumPy, SciPy, Matplotlib书中代码:https://github.com/CamDavidsonPilonhttps://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-H...原创 2018-04-21 15:58:54 · 509 阅读 · 0 评论 -
读《大数据决策商业分析新常态》
本书更多的是理论层上指导使用数据去决策,无算法,无例子。但链接的资源和书比较多,在每章的后面的注释中。原创 2018-06-04 09:01:06 · 379 阅读 · 0 评论 -
IoT (物联网)的好应用场景之一
飞机操作出现失误只要即时调整就不会出现大问题但是 ICU 重症监护室内要出现一个判断操作失误带来的影响是至命的会危及到病人的生命。病房中摆满了医疗电子设备:呼吸机,透析机,输送抗生素与镇痛剂的输液器,监控心率、呼吸、血压、血氧饱和度等重要指标的设备。几乎每台机器都配备了电脑平面显示器,由小到大,还有各种不同的警报声。一个有 20 张床的重症监护室每秒钟估计可以生成 16 万个数据点。美国埃默里大学...原创 2018-06-04 18:52:23 · 2478 阅读 · 0 评论 -
读《大数据主义》
美,Steve Lohr一,大数据到底有多大?数据并不平等如何使用数据无法计量,就无法管理二,人的潜力与数据的潜力此章写的有些模糊。三,蓝色巨人与大数据的博弈2002年 IBM 斥资 35 亿美元,购买了普华永道会计事务所的咨询部门。数据爆炸驱动新的信息组织、检索、分析与存储模式。四,企业决策与数据挖掘五,数据科学的崛起与发展六,人工智能与机器学习七,用大数据推动企业与行业发展八,物理世界与数字世...原创 2018-06-04 21:40:11 · 415 阅读 · 0 评论 -
读《数据化决策》
书的后面笔记就记得少了。有些方法就是大数据的分析算法,也是统计学中常用的算法了。书的观点更给人启发,而内容大多是常用方法。没有太新奇的。看起来完全没有踪迹可循的无形之物,是可以量化的。这种量化可以用比较经济的方法来实现。本书将在三大领域展开探讨:为什么凡事皆可量化?怎样设置和定义量化难题?如何使用强大实用的量化方法解决难题?费米分解法,费米解法...原创 2018-05-31 11:45:18 · 2417 阅读 · 1 评论 -
Hadoop 现状
许多内容没有用到就不清楚,用了也只是了解一部分。如 Hive 。满足某一功能需求下非常好用。spark 内存计算 80% 适用场景。十年:https://www.cnblogs.com/shijiaoyun/p/5778025.html 下面的文章写于 hadoop 2.7.2 时,现在是 2.9.2 了,好快。Hadoop在2.0将资源管理从MapReduce中独立出来变...转载 2018-12-19 14:47:32 · 1406 阅读 · 0 评论 -
日志系统,分布式:ELK
转载自:http://www.cnblogs.com/aresxin/p/8035137.htmlELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也...转载 2018-12-19 21:21:15 · 195 阅读 · 0 评论 -
读《用户网络行为画像》
一本初级的介绍大数据应用的用户画像的书。简单介绍。许多事例是视频网站的。还可以。但是书的内容不够详细,讲的感觉也不到位。不是一本好书。不推荐读。...原创 2019-03-09 09:31:17 · 285 阅读 · 0 评论 -
读《机器学习实战应用》
最近新买的书,迟了好几个月才开始看。作者是阿里云工作的,所以书中的例子也是阿里的业务类。算法:分类算法聚类算法 场景:人群划分,产品种类划分回归算法文本分析算法推荐算法关系图算法第一部分背景知识机器胜过人类,关键因素是信息的量级和算法的深度。步骤:场景解析数据预处理特征工程模型训练模型评估学习,离线/在线服务常规算法1,K邻近(KNN) 它的分类只考虑距离目标点最临近的 K 个点的类别...原创 2018-04-05 07:02:57 · 258 阅读 · 0 评论 -
读《大数据日知录架构与算法》
张俊林著2014年9月 第1版IBM 用 3V ,大容量(Volume),多形式(Variety)从数据的类型角度来看,高速率(Velocity)数据产生效率的实时性角度。后又加一个:Value 价值密度低的数据。数据备份,三份CAP 主义:Consistency/ Availability/ Partition Tolerance强一致性,可用性,分区容忍性不可兼得,只能放弃一个,保证另二个。 ...原创 2018-04-04 08:48:48 · 397 阅读 · 0 评论 -
机器学习的几大步骤
六个。场景解析 为以后的工作选择具体的方法做判断依据。这里选择场景。如:推荐系统,排序,人群划分等等。不同的场景以后的处理也是不同的。数据预处理 对数据进行预处理,清洗脏数据。特征工程 通过算法提取数据的特征。还要判断是否过度提取。模型训练 用大量的数据对算法进行训练。模型评估 通过若干指标评估算法。学习,离线/在线服务 应用了。是接着学习,还是做离线的计算,还...原创 2018-03-20 10:22:15 · 1423 阅读 · 0 评论 -
应该在什么时候使用Hadoop
此文正是我需要的,方案的选型比技术细节的学习更加重要,可能节省的成本更高。关系到企业的存活。不同的数据量适用于不同的技术特性,特点。转自:作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。转载 2014-03-19 10:11:56 · 1368 阅读 · 0 评论 -
从IBM的计划中分析出中国又一次相当然的错误选择吗
《IBM欲用物联网技术解决北京雾霾难题》http://security.zol.com.cn/469/4690141.html读了上文,分析出的。由于我没有太多的数据。不好分析。有些错误也希望大家能指正。IBM 利用的手段:1,卫星2,传感器3,无人机这些,技术手段中,无人机给人感觉是不可长久的工作的。难度北京以为空气治理是短期工程吗?原创 2014-07-27 08:02:00 · 1038 阅读 · 0 评论 -
读《大数据》涂子沛著
一本不错的书,4/5星。内容:介绍美国与信息,数据相关的历史。从之开国时,到奥巴马连任时。主要是介绍大数据在美国,是如何从无到有的。随着时间的流逝,到最近几年,这股影响美国的大数据是如何走入世界,影响各国的。英国的数据权印度,日本,中国香港,等40多个国家地区的应用建设最后中国可怜的现状。原创 2014-07-27 07:36:09 · 1973 阅读 · 0 评论 -
钩子与数据分析
function(param) {sub_fun() {}}钩子:(Hook),是Windows消息处理机制的一个平台,应用程序可以在上面设置子程以监视指定窗口的某种消息,而且所监视的窗口可以是其他进程所创建的。当消息到达后,在目标窗口处理函数之前处理它。钩子机制允许应用程序截获处理window消息或特定事件。按事件分类有如下的几种常用类型(1)键盘钩子和低级键盘钩原创 2014-09-30 14:48:09 · 892 阅读 · 0 评论 -
致中文上网使用者,关于隐私问题
最近我发现了一个很严重的问题在亚马迅上, a.znhttp://profile.amazon.cn/gp/pdp/profile/ATI675FC144SI/ref=cm_cr_dp_pdp他们没有做任何提示就公开了,用户所有的购买后点评的记录我没有查看更多。这个问题,可能会更严重。没人关心你什么时间购买的单次记录。但是你最近几年购买过的卫生巾的次数,数量,时间,都原创 2015-01-26 16:58:47 · 917 阅读 · 0 评论 -
读《数据说服力:菜鸟学数据分析》
做了几页纸的笔记。这本书是数据分析的书,只分析 excel 中的数据,重点用 excel 做图表的展示。写了几个计算机程序的展示库。但只是几行的介绍。所以不要想多了。原创 2017-11-30 09:33:18 · 578 阅读 · 0 评论 -
读《大数据医疗》
原创 2017-12-29 18:02:28 · 395 阅读 · 0 评论 -
安装 python 配置大数据功能
安装参考:http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.htmlcentosyum install python-pip python-dev安装好了,但不生效。升级 python 至 2.7.14第一步,下载中wget https://www.python.org/转载 2018-02-05 18:14:01 · 258 阅读 · 0 评论 -
读《Spark 大数据实例开发教程》
这本讲 spark 使用的书,非常基础,命令讲的也详细。很适合现在的我。幸运地能读到。原创 2019-03-08 10:02:20 · 679 阅读 · 0 评论