数据湖架构—读书笔记[1] “数据仓库”之父Bill Lnmon最新力作,设计数据湖以避免垃圾存储最近剁手选购了一篇新书,大都是之前未接触过得,有些纯技术,有些也纯是扫盲的概念书,为了不浪费,通过每天写笔记的形式读完:
机器学习的十个误区 原文:https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3 作者:Pedro Domingos 翻译:AI梦蝶译者注:在本文中,主要介绍了机器学习人员10种可能的认识误区。
参数与非参的机器学习算法 原文:http://machinelearningmastery.com/parametric-and-nonparametric-machine-learning-algorithms/ 作者:Jason Brownlee 翻译:AI梦蝶译者注:这篇文章中主要介绍了参数和非参的一些机器学习模型的区别。 一个参数机器学习算法是什么,与非参的机器学习算法又有什么不同呢? 在这篇文章中
数据预处理:AMiner to JSON 1、处理需求 主要处理的数据来自己Extraction and Mining of Academic Social Networks官网链接的数据集,本文以“AMiner-Paper.txt”为例。原始数据如下: 处理之后的结果如下:2、处理代码如下#AMiner数据转换成JSON数据格式#待处理和处理后数据的文件路径inputPath = u"D:/DataSets/AMiner/AMine
Win10:基于Anaconda 4.2.0安转tensorflow 1.0.0(CPU版) 1、安转必备软件:Anaconda 4.2.0 截止到本文写出前,最新Anaconda的windows版本是4.3.1,这个版本是集成了Python 3.6,但是TensorFlow 官网上显示的是安转要求是Python 3.5.x: 所以我们直接下载Anaconda 4.2.0,在国内的话,建议去清华镜像(清华镜像地址)下载比较快。2、详细的安转过程 这一步很轻松,但是也要注意一些细节,我们
吴恩达—渴望机器学习(卷一) AI 工程师在深度学习时代的技术战略1、为什么是机器学习战略 机器学习是无数重要的应用程序的基础,包括网络搜索、电子邮件反垃圾邮件、语音识别和产品推荐等等。我假设你或者你的团队正在开发一个机器学习应用,并且想要获得一个快速进展。这本书将会帮你这样做。例子:建立一家猫图片的初创公司 假设说你正在准备建立一个家创业公司,给猫爱好者提供无尽的猫图片。你使用一个神经网络建立了一个计算机视觉系统,用于识别
Java入门基础_学习笔记[5]_接口与内部类 Java基础—接口(Interface)1、接口(1)接口不是类,是一组对类的需求描述。所以更不能使用new,不能构造接口的对象,但是可以声明接口变量。这个变量引用实现了接口的对象。与抽象类类似。(2)定义:public interface inclass<T>{ int compare(T other);}泛型是SE5.0之后开始改进的,接口中的所有的方法自动是public,可以不需要
Impala基础—学习笔记[5] 1、Impala的理论基础Dremel (1)Dremel:基于GFS、MR和bigTable的分析引擎。在论文中,1PB数据3秒可以处理完。2、Impala的架构 (1)Impala Daemon:包括Query Planner、Query Coordinator、Execution和HDFS和HBase。 也就如下图: (2)Impala Daemo
Tableau10.0学习笔记—入门[1] Tableau-初始1、Tableau介绍 Tableau集数据导入、分析和发布一体的数据可视化分析平台,目前提供了Tableau 公共版、专业版和服务器版。除了公用版,其他版本是收费。不过对于一个数据分析师解放很多苦力工作,能有更多的时间放在业务分析上。目前版本到了tableau10.0,如下图: 1、Tableau初次使用 (1)怎样下载和安转之类的就不累
Hive性能与调优—学习笔记[4] 1、Hive SQL的基本实现(Join、Group by、Distinct) (1)Join实现:Hive不支持关联字查询。例如:select t1.name,t2.name from t1 join t2 on t1.id=t2.id; (2)Group by实现:select tab.feature1,tab.feature2,count(*) from tab group by
Hive与ETL基础—学习笔记[3] Hive与ETL基础1、日志收集 2、Hive数据类型 3、Hive表与分区 4、Hive基本操作 5、Hive常用函数 6、HDFS文件格式 7、Hive表压缩存储 8、ORCFile 9、Hive SerDe1、Flume:日志收集 常见的收集日志的工具有两种:(1)最早收集日志的是Facebook开发的 Scribe。开源。(2)Flume更加完善如上图所示。HDFS批处
MapReduce编程基础—学习笔记[2] 1、MapReduce编程模型 (1)Record reader:读取hdfs文件; (2)Map:把hdfs的结果映射成另一种结果,比如WordCount这个例子而言,就是把读进来的文本,映射成一个这样逻辑; (3)Combiner:很重要的一个功能,很多MR可以没有,但是性能会下降。实现数据减少的操作,在MAP端做一个局部的Reduce; (4)Par
DataWarehouseBasedOnSQLHadoop—学习笔记[1] 1、Hadoop Ecosystem (1)结构化、非结构化数据统一存储平台:结构化数据是通常所说的行数据(如数字、符号等信息),存储在关系数据库中,可用二维表来表示。半结构化数据通常指的是一个实例的字段(特征/属性)数目是不固定。比如HTML文档,比如树、图数据。非结构数据是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据(全文文本、图象、声音、影视、超媒体
Linux-必须熟悉的常用命令集 0、Linux的目录结构 /: 根目录 /bin: binary的简写,存放一些系统的必要命令,例如cp、cat、chmod、mkdir等; /boot: 存放系统的内核集启动文件 /dev: 存放设备文件 /etc: 存放系统配置文件 /home: 普通用户的宿主目录,存放其相关数据 /mnt : 存放临时的映射文件系统。