易悠-CSDN博客

原创各种软件下载地址收集

JDK http://www.oracle.com/technetwork/java/javase/archive-139210.html 用户名密码（1627383642@qq.com H**124077）CDH http://archive.cloudera.com/cdh5/ http://archive.cloudera.com/cm5/repo-...

2017-03-22 20:01:08 2958

原创技术大牛博客汇总

易者悠也 http://write.blog.csdn.net/postlist/0/0/enabled/1JULY-结构之法算法之道机器学习数据挖掘 Android相关stormzhang博客精华 http://stormzhang.comInnost的专栏深入理解Android与其他技术，管理，人生百态，团队建设等http://blog.csdn.net/Innost/zhih

2015-11-02 15:51:17 2326

原创深度学习线路图

深度学习是机器学习的一种形式，它允许计算机从经验中学习并从概念层次理解事物，其中每个概念都是从更简单的概念定义的。这种方法避免了人类需要指定计算机所需的所有知识。概念的层次结构允许计算机通过具有多个层的深度设置将它们彼此叠加在一起来学习复杂的概念。第一部分：应用数学在学习深度学习时，您需要学习的第一件事是应用数学，这是深度学习的基础组成部分。线性代数线性代数是数学的一个分支，在整个工程中...

2019-05-18 13:00:35 1384

原创深度学习资源汇总

1 、Awesome-Most Cited Deep Learning Papers https://github.com/terryum/awesome-deep-learning-papers2 、 Deep Learning 深度学习专知荟萃 http://www.zhuanzhi.ai/topic/2001228999615594/awesome3、 Awes...

2018-05-28 14:48:50 578

原创 Pima印第安人数据集上的机器学习-分类算法（根据诊断措施预测糖尿病的发病）

数据集简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。1 加载库imp...

2018-04-02 16:49:37 23980 10

原创 Hadoop2.6.5/Spark1.6.3 HA集群构建

1 规划部署一共9台机器，HA架构：2台Master，6台Worker，1台Client1.1 网络规划：主机名： sparker001 IP: 192.168.1.101 网关 192.168.1.254 主机名： sparker002 IP: 192.168.1.102 网关 192.168.1.

2017-08-02 21:55:20 1839

原创 zeppelin-0.7.2-bin-all 安装与使用

1 下载官方地址：http://zeppelin.apache.org/2 修改 conf/zeppelin-env.sh, export SPARK_HOME3 修改conf/zeppelin-site.xml 中的 zeppelin.server.portcp zeppelin-site.xml.template zeppelin-site.xmlvim zeppelin-site.xml4

2017-08-01 15:36:26 2143

1 通过Git下载Spark源码git clone https://github.com/apache/spark.git2 切换Spark源码分支git branch -a git checkout v1.6.3（或者直接下载对应分支的Spark源代码），确保要有make-distribution.sh文件3 修改 make-distribution.sh 文件MVN="/home/hjr/Mav

2017-03-06 22:03:06 2083

原创 Hive 1.2.1 安装测试

1 安装MySQL安装服务器：sudo apt-get install mysql-server(注意：期间需要设置root用户的密码哟) 安装客户端:sudo apt-get install mysql-clientsudo apt-get install libmysqlclient-dev检查系统中是否有MySQL服务，出现下面的大概就是成功了sudo netstat -tap|g

2016-12-23 20:50:53 1810

原创 CDH5.9.0集群部署与搭建

最近新购了一台工作站，急切的想试一下手，就搭建个CDH集群吧，练练手，顺便了解一下最新版的CDH长成什么样子了…… 工作站的配置：Thinkpad P50，Intel（R）Xeon E3 1505M v5@2.80GHz 2.81GHz ;内存48G;显卡4G……1 下载CDH各种RPM包1.1 下载cloudera-manager-installer.bin这个地址可以选择最新的CM的安装文

2016-11-23 20:59:55 13845 1

原创 Spark2.0源码阅读环境搭建开发环境搭建

Spark2.0源码阅读环境和Spark开发环境，我们选择使用IDEA社区版，所以下载IDEA社区版;并且使用Java8环境。1 jdk8安装下载略解压到当前目录tar -xzvf jdk-8u101-linux-x64.tar.gz ………… 查看移动到相应目录（自己新建的目录）mv jdk1.8.0_101 /home/hjr/develop/java82 IDEA 安装

2016-08-20 16:05:20 6560

原创 bad symbolic reference. A signature in RDD.class refers to term hadoop in package org.apache which i

Error:scalac: bad symbolic reference. A signature in RDD.class refers to term hadoopin package org.apache which is not available.It may be completely missing from the current classpath, or the versio

2016-06-20 13:58:07 3977

原创 ERROR executor.Executor: Exception in task 0.0 in stage 0.0 (TID 0) java.lang.IllegalArgumentExcepti

D:\Java\bin\java -Didea.launcher.port=7537 "-Didea.launcher.bin.path=D:\IntelliJ IDEA Community Edition 15.0.4\bin" -classpath C:\Users\Administrator.PC-201512221019\AppData\Local\Temp\classpath18.jar

2016-05-27 10:13:03 28380 2

原创 Spark 临时记录

讯方实训平台 xunfangBD项目基础Jar包设置日志输出级别// import org.apache.log4j.{Level, Logger}Logger.getRootLogger.setLevel(Level.WARN)0 本地开Jar包添加 1 添加Spark源码，调试Spark程序可以参

2016-04-07 10:10:10 2117

原创 Caused by: java.io.IOException: Permission denied at java.io.UnixFileSystem.createFileExclus

[hjr@master bin]$ ./spark-shellPicked up _JAVA_OPTIONS: -Xmx2048m -XX:MaxPermSize=512m -Djava.awt.headless=truePicked up _JAVA_OPTIONS: -Xmx2048m -XX:MaxPermSize=512m -Djava.awt.headless=true16/03/3

2016-03-31 15:58:54 11611

原创 Spark Streaming实战(三)

Spark Streaming实战

2016-03-27 19:18:20 40812

原创 Spark Streaming实战(二)

Spark Streaming实战

2016-03-27 19:17:06 592

原创 Spark Streaming实战(一)

Spark Streaming实战

2016-03-27 19:16:41 628

原创 Spark实战-Spark SQL（三）

SparkSQL实战

2016-03-27 19:15:21 786

原创 Spark实战-Spark SQL（二）

SparkSQL实战

2016-03-27 19:09:31 670

原创 Python教程学习简记13--Python Module 模块

Module 模块计算机程序开发中，随着程序代码越写越多，在一个文件里代码就会越来越长，越来越不容易维护。为了编写可维护的代码，我们把很多函数分组，分别放到不同的文件里面，这样，这个文件包含的代码就相对较少，很多编程语言都采用这种组织代码的方式。在Python中，一个.py文件就称之为一个模块（Module）。使用模块有什么好处呢？最大的好处是大大提高了代码的可维护性。其次，编写代码不必从零开始。当

2016-02-21 01:18:03 2277

原创 Python教程学习简记12--Python Partial function 偏函数

Python的functools模块提供了很多有用的功能，其中一个就是偏函数（Partial function）。注意：这里的偏函数和数学上的偏函数不一样奥。我们在介绍函数参数的时候，我们讲到，通过设定参数的默认值，可以降低函数调用的难度。而偏函数也可以做到这一点。例如：int()函数可以把字符串转化为整数，当仅仅传入字符串时，int()函数默认按十进制转换：但是int()函数还提供额外的b

2016-02-17 14:19:38 796

原创 java.lang.IllegalArgumentException: System memory ... must be at least ... Please use a larger heap

java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8. Please use a larger heap size.解决：设置应用程序的 VM optionsidea的设置路径在：Run -Edit Configurations-Application选择对应的程序，设置VM o

2016-02-17 02:30:19 19580

原创 Spark1.6.0使用apache-maven-3.3.9编译详细记录

1. apache-maven-3.39安装配置1-1. 下载解压maven官方下载地址 http://maven.apache.org/download.cgi解压到指定目录：（我下载并解压到了E盘根目录） 1-2. 验证JAVA_HOME是否配置检查JAVA环境变量值:echo %JAVA_HOME% ok,这都没有问题。如果没有，则自行安装配置java环境变量，此处不再赘述，不过

2016-02-16 01:33:33 2472

原创 Python教程学习简记11--Python decorator 装饰器

由于函数也是一个对象，而且函数对象可以被赋值给变量，所以，通过变量也能调用该函数。函数对象有一个（双下划线+name+双下划线）属性，可以拿到函数的名字：现在，假设我们要增强now()函数的功能，比如，在函数调用前后自动打印日志，但又不希望修改now()函数的定义，这种在代码运行期间动态增加功能的方式，称之为“装饰器”（Decorator）。本质上，decorator就是一个返回函数的高阶函数。

2016-02-14 17:18:30 2315

原创 Python教程学习简记10--Python 匿名函数

当我们在传入函数时，有些时候，不需要显式的定义函数，直接传入匿名函数更方便。在Python中，对匿名函数提供了有限支持。还是以map()函数为例，计算f(x)=x*x时，除了定义一个f（x）的函数外，还可以直接传入匿名函数：通过对比可以看出，匿名函数lambda x: x*x 实际上就是：def f(x): return x*x关键字lambda表示匿名函数，冒号前面的x表示函数参数

2016-02-13 17:22:07 806

原创 Python教程学习简记9--Python 返回函数闭包

函数作为返回值高阶函数除了可以接收函数作为参数外，还可以把函数作为结果值返回。我们来实现一个可变参数的求和。通常情况下，求和的函数是这样定义的：def calc_sum(*args): ax = 0 for n in args: ax = ax + n return ax但是，如果不需要立即求和，而是在后面的代码中，根据需要在计算怎么办？可以不返回求和的结果，

2016-02-12 22:31:30 756

原创 Python教程学习简记8--Python 高阶函数 map/reduce filter sorted

函数式编程函数是Python内建支持的一种封装，我们通过把大段代码拆成函数，通过一层一层的函数调用，就可以把复杂任务分解成简单的任务，这种分解可以称之为面向过程的程序设计。函数就是面向过程的程序设计的基本单元。而函数式编程–Functional Programming，虽然也可以归结到面向过程的程序设计，但是其思想更接近数学计算。我们首先要搞明白计算机（Computer）和计算（Compute）的概

2016-02-12 17:07:53 1619

原创 Python教程学习简记7--Python 可迭代对象：Iterable ，迭代器：Iterator

我们已经知道，可以直接作用于for循环的数据类型有以下几种：一类是集合数据类型，如list / tuple / dict / set / str /等; 一类是generator，包括生成器和带yield的generator function。这些可以直接作用于for循环的对象统称为可迭代对象：Iterable。可以使用isinstance()判断一个对象是否是Iterable对象：>>> fro

2016-02-10 16:53:20 4586

原创 Python教程学习简记6--Python 生成器 generator

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间就白白浪费了！所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这样一边循环一边

2016-02-10 15:48:23 1160

原创 Python教程学习简记5--Python 列表生成式(List Comprehensions)

列表生成式即List Comprehensions，是Python内置的非常简单却强大的可以用来创建list的生成式。举个例子，要生成list [1,2,3,4,5,6,7,8,9,10]可以用list(range(1, 11)):>>> list(range(1, 11))[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]但是如果要生成[1*1, 2*2 ,3*3, …, 10*10

2016-02-09 11:48:01 7907

原创 ELK 开源实时日志分析平台部署安装

ELK 由 ElasticSearch 、 Logstash 和 KiabanaElasticsearch 是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制， restful 风格接口，多数据源，自动搜索负载等。Logstash 是一个完全开源的工具，他可以对你的日志进行收集、分析，并将其存储供以后使用（如，搜索）。kibana 也是一个开源和免费的工具，他

2016-02-08 00:00:08 1387

原创 Spark实战-Spark SQL（一）

本文是按照周志胡老师的博客实践的，再次特别感谢周老师！Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark SQL案例实战（一） http://blog.csdn.net/lovehuangjiaju/article/details/50639287分为以下主要的几步：获取数据创建DataFrame DataFrame方法实战 DataFrame注册成临时表使用实战首先

2016-02-06 18:02:02 4465

原创 Python教程学习简记4--Python 迭代(iteration)

如果给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历我们称之为迭代（Iteration）.在Python中，迭代是通过for… in来完成的，而很多语言比如C或者Java，迭代list是通过下表完成的，比如Java代码：for (i = 0; i < list.length; i++){ n = list[i];}可以看出，Python的for循

2016-02-05 18:35:49 1144

原创 Python教程学习简记3--Python 切片

取一个list或者tuple的部分元素是非常常见的操作。例如，一个list如下：>>> L = ['hjr', 'lr', 'hjj', 'lqq']我们取前3个元素，笨办法如下：>>> [L[0], L[1], L[2]]['hjr', 'lr', 'hjj']之所以称之为笨办法是因为扩展以下，取前N个元素就没辙了。取前N个元素，也就是索引为0-（N-1）的元素，可以用循环：>>> r =

2016-02-05 18:01:24 915

原创 Python教程学习简记1--Python数据类型和变量字符串和编码 list和tuple 条件判断循环 dict和set

本文主要是学习Python基础： Python数据类型和变量字符串和编码 list和tuple 条件判断循环 dict和set本文根据廖雪峰的官方网站-Python教程，认真学习，一步一步实操并且详细记录。在此，特别感谢廖雪峰老师。Python2.x与Python3.x之后补上。。。。。。升级Ubuntu15.10系统的PythonUbuntu15.10系统默认安装的Python为2.7.1

2016-02-03 15:39:33 2008

原创 Python教程学习简记2--Python 函数调用定义函数函数的参数递归函数

本文学习Python函数，包括：函数调用定义函数函数的参数递归函数我们知道圆的面积计算公式为：S = π r*r当我们知道半径r的值时，就可以根据公式计算出面积。假设我们需要计算3个不同大小的圆的面积：r1 = 12.34r2 = 9.08r3 = 73.1s1 = 3.14 * r1 *r1s2 = 3.14 * r2 *r2s3 = 3.14 * r3 *r3当代码出现有规律的

2016-02-01 15:28:50 5316

原创 Python教程学习简记1--Python数据类型和变量字符串和编码 list和tuple 条件判断循环 dict和set

本文主要是学习Python基础：Python数据类型和变量字符串和编码 list和tuple 条件判断循环 dict和set本文根据廖雪峰的官方网站-Python教程，认真学习，一步一步实操并且详细记录。在此，特别感谢廖雪峰老师。Python2.x与Python3.x之后补上。。。。。。升级Ubuntu15.10系统的PythonUbuntu15.10系统默认安装的Python为2.7.10

2016-01-30 16:13:29 1938 1

原创 Spark1.6.0 on Hadoop-2.6.3 安装配置

安装配置Scala1 下载scala 下载解压scala包：略附：下载链接 http://www.scala-lang.org/download/2.10.4.html移动scala到指定目录mkdir /usr/local/scalamv scala-2.10.4 /usr/local/scala 2 配置scala环境变量export SCALA_HOME=/usr/l

2016-01-14 14:05:46 2236

原创 Hadoop2.6.3 安装配置

下载解压Hadoop2.6.3 tar文件下载链接：http://hadoop.apache.org/releases.html解压文件,至当前文件夹：tar -xzvf hadoop-2.6.3.tar.gz 新建自己的Hadoop目录，移动文件至该目录中新建hadoop目录mkdir /usr/local/hadoop移动解压后的文件到自己新建的hadoop目录当中mv hadoop-2

2016-01-10 17:47:03 3090

Docker入门

Docker 是个伟大的项目，它彻底释放了虚拟化的威力，让应用的分发、部署和管理都变得前所未有的高效和轻松！本书既适用于具备基础 Linux 知识的 Docker 初学者，也可供希望理解原理和实现的高级用户参考。同时，书中给出的实践案例，可供在进行实际部署时借鉴。本书源于 WaitFish 的《Docker 学习手册 v1.0》内容。后来，yeasy 根据最新 Docker 版本对内容进行了修订和重写，并增加内容；经协商将所有内容开源，采用互联网合作的方式进行维护。前六章为基础内容，供用户理解 Docker 的基本概念和操作；7 ~ 9 章介绍一些高级操作；第 10 章给出典型的应用场景和实践案例；11 ~ 13 章介绍关于 Docker 实现的相关技术。

2015-08-23

Build Spark1.4.1/1.4.0 on Linux

2015-12-08

Scala经典开发书籍《Scala编程》

Scala编程：本书介绍了一种新的编程语言，它把面向对象和函数式编程概念有机的结合为整体，从而形成一种完整统一、语言丰富的新思维体系。

2015-07-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人