- 博客(26)
- 资源 (1)
- 收藏
- 关注
原创 斯坦福大学公开课机器学习课程(Andrew Ng)七最优间隔分类器
课程概要:1.最优间隔分类器2.原始/对偶问题3.svn的对偶问题 在上篇中,我们提到了函数间隔与几何间隔,这两个定义是 svm 的基本定义,因为svn比较复杂,这里先简要介绍一下svn的几个部分。首先是函数间隔与几何间隔,由它们引出最优间隔分类器;为了多快好的解决最优间隔分类器问题,使用了拉格朗日对偶性性质,于是,先要理解原始优化问题与对偶问题及它们在什么条件(KKT
2017-07-31 14:22:44 1367
原创 HBase启动失败,启动后自动退出
2017-07-23 08:12:50,325 ERROR [main] master.HMasterCommandLine: Master exitingjava.lang.RuntimeException: Failed construction of Master: class org.apache.hadoop.hbase.master.HMaster at org.ap
2017-07-30 17:06:52 2711
原创 python numpy包的使用一 基本操作
numpy(NumericalPython extensions)是一个用于科学计算第三方的Python包。 NumPy提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。一、数组简介Numpy中,最重要的数据结构是:多维数组类型(numpy.ndarray)ndarray由两部分组成:实际所持有的数
2017-07-29 18:07:43 11031 3
原创 sqoop导入数据出错ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied
17/07/22 15:36:35 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES)java.sql.SQLException: Access denied for user
2017-07-27 18:18:08 12479
转载 MySQL修改用户权限
关于mysql的用户管理,笔记 1、创建新用户 通过root用户登录之后创建 >> grant all privileges on *.* to testuser@localhost identified by “123456” ; // 创建新用户,用户名为testuser,密码为123456 ; >> grant all privileges on *.* to testuser@
2017-07-27 17:53:45 28703
原创 Azkaban简介与使用
一、Azkaban简介 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。简而言之就是一个工作流调度系统。为什么需要工作流调度系统?因为一个完整的数据分析系统通常都是由
2017-07-25 17:19:37 12215
转载 使用浏览器访问azkaban报错:javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?
javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671) at sun.security.ssl.InputRecord.re
2017-07-24 15:25:22 15267 2
原创 flume简介与安装配置
一、flume简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的
2017-07-21 21:15:21 1683
原创 hive基本结构与数据存储
一、Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。还可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 HQL。使用hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应
2017-07-18 20:41:03 6827
原创 hive安装配置(hive1.2.1)
环境centOS 7hive的安装比较简单,只需要在一台机器上配置即可。由于hive的一些功能要借助数据库实现,所以要先装好mysql。 一.安装MySql在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/# 下载mysql源安装包shell> wget http://dev.m
2017-07-18 11:05:26 5243
原创 斯坦福大学公开课机器学习课程(Andrew Ng)五生成学习算法
课程概要:1.生成学习算法(Generative learning algorithm)2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 3.GDA与logistic模型的联系4.朴素贝叶斯(Naive Bayes) 5.拉普拉斯平滑(Laplace smoothing)一、生成学习算法两种学习算法的定
2017-07-16 22:35:38 2970
原创 myEclipse2017添加tomcat服务器
myEclipse2017中安装tomcat与之前版本的myEclipse略有不同,一起看一下。 首先确保你的机器 jdk tomcat 什么的已经安装成功。1.MyEclipse启动点击"Window":2.进入“Perferences”进行设置 , 如下图:3.然后点击Server --> Runtime Environment,如下图
2017-07-16 10:25:21 92829 9
转载 两台linux之间传输文件的方法
scp传输当两台Linux主机之间要互传文件时可使用SCP命令来实现scp传输速度较慢,但使用ssh通道保证了传输的安全性复制文件将本地文件拷贝到远程 scp 文件名 –用户名@计算机IP或者计算机名称:远程路径 从远程将文件拷回本地 scp –用户名@计算机IP或者计算机名称:文件名 本地路径命令格式scp local_file
2017-07-13 22:28:10 6490
转载 centOS7设置静态ip后无法上网的解决
最近在VMware虚拟机里玩Centos,装好后发现上不了网。经过一番艰辛的折腾,终于找到出解决问题的方法了。最终的效果是无论是ping内网IP还是ping外网ip,都能正常ping通。方法四步走:第一步,我们进入/etc/sysconfig/network-scripts目录,查看该目录有没有形如ifcfg-XXX的文件:如果你看不到以ifcfg-打头的文件(ifcfg-lo除外
2017-07-13 13:29:21 21888 11
转载 高可用性hadoop集群的搭建
1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下:创建hadoop用户安装JDK配置hosts安装SSH关闭防火墙修改时区ZK(安装,启动,验证)HDFS+HA的结构图角色分配环境变量配置核心文件配置slave启动命令(hdfs和yarn的相关命令)HA的切
2017-07-13 08:50:43 762
转载 centOS7下ping不通外网
一、提前说两句 在centos7工作环境中,无论是玩爬虫还是安装更新软件我们可能都需要连接外网,但是经常会出现无法连接外网的情况。现在我们一起解决常见的几种ping 不通外网的情况。二、解决问题 1.mtu值 在安装Docker时,我们遇到了云主机的mtu值和物理环境的mtu值不同的问题。解决方案参考《mtu值不匹配问题》。2.DNS问题 查看路由[root@c
2017-07-12 09:51:34 7348
转载 CentOS修改DNS重启或network服务后丢失问题处理
我们在配置CentOS的时候,很多情况需要能联外网,那么就需要DNS解析功能,默认的是没有配置DNS信息的,所以我们得配置DNS信息起因我们在搜索Centos配置DNS信息的时候,很多都是说在这个文件进行配置"/etc/resolv.conf",我们在这个里面加了nameserver后确实可以ping通域名,但是重启centos或者重启network服务后就无法ping通了,在"/etc/
2017-07-11 22:20:20 8508 2
原创 斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型
本次课所讲主要内容:1、 牛顿方法:对Logistic模型进行拟合2、 指数分布族3、 广义线性模型(GLM):联系Logistic回归和最小二乘模型一、牛顿方法 牛顿方法与梯度下降法的功能一样,都是对解空间进行搜索的方法。假设有函数,需要找使=0的步骤:1) 给出一个的初始值2) 在作 的切
2017-07-11 13:25:39 1821
原创 MapReduce框架结构与运行流程
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。为什么要MapReduce?(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复
2017-07-08 11:44:48 4895
原创 斯坦福大学公开课机器学习课程(Andrew Ng)三欠拟合与过拟合
概要本节课的主要内容有:1、 局部加权回归:线性回归的变化版本2、 概率解释:另一种可能的对于线性回归的解释3、 Logistic回归: 基于2的分类算法,也是第一个要学的分类算法4、 感知器算法:
2017-07-07 15:50:17 2279
原创 HDFS体系结构及读写流程
一、HDFS简介 HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件
2017-07-06 19:27:24 5224
转载 st3下如何运行python
首先你需要安装一个Sublime Text(http://www.sublimetext.com/)和一个Python(https://www.Python.org/downloads/),接下来打开Sublime Text:1、如下图所示,点击菜单栏中的Tools —> Build System —> New Build System… (可以看到系统默认选择的是Automati
2017-07-02 22:17:49 930
原创 Hadoop2.6.4集群安装配置
修改hadoop-env.shvi hadoop-env.sh找到export JAVA_HOME一行,如下:将其改为你的jdk路径(echo $JAVA_HOME可以查看jdk路径)更改配置文件core-site.xmlvi core-site.xml
2017-07-02 13:30:56 1657 3
原创 hadoop上传文件错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)
搭建好hadoop后使用hadoop fs -put 命令上传文件发现失败,报了以下错误:14/08/18 15:18:03 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /home/input/file1.txt.
2017-07-02 11:36:53 68857 21
原创 Java集合类二集合类详解及使用
一、常见集合详解与使用1、ArrayListArrayList:实现原理:数组实现,查找快,增删慢数组为什么是查询快?因为数组的内存空间地址是连续的. ArrayList底层维护了一个Object[]用于存储对象,默认数组的长度是10。可以通过 new ArrayList(20)显式的指定用于存储对象的数组的长度。 当默认的或者指定的容量不够存储对象的时候,
2017-07-01 17:43:21 471
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人