自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习笔记

用于整理个人学习过程中遇到的问题和知识点

  • 博客(27)
  • 资源 (3)
  • 收藏
  • 关注

原创 MapReduce练习之二次排序

0. 运行环境idea+hadoop 2.9.0 本地调试, 各个类分开写输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 91. MyJob主方法所在类package com;import org.apache.hadoop.conf.Configuration;impo...

2018-05-31 16:16:37 541 1

原创 Windows下idea中实现Hadoop本地测试功能

0. 目标Hadoop默认没有windows版本Hadoop集群部署在Linux虚拟机上,通过idea编写的MR代码和输入文件要打包jar发送给Linux为便于测试MR代码是否正确, 希望在idea上运行MR1. 解压hadoop到windows硬盘中 https://blog.csdn.net/wxfghy/article/details/80450469 win...

2018-05-31 11:25:34 3111

原创 CentOS7环境下NGINX的安装和简介

NGINX的安装关闭防火墙安装JAVA和TOMCAT, 并修改环境变量安装软件 yum install -y gcc-c++ yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel在/usr/local下解压nginx安装包使用目录下c...

2018-05-30 15:29:01 169

原创 MapReduce简介和wordcount

MapReduce简介WordCountMyMapMyReduceMyJobpackage com;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.ha...

2018-05-29 07:13:13 724

原创 windows7下java代码从远程hadoop服务上下载文件

1. 在windows7下无法下载远程hdfs服务上的文件1. 问题原因hadoop官方不支持windows平台,没有windows版本的hadoop,想在windows上运行hadoop很麻烦官方下载的hadoop安装包中缺少两个文件hadoop.dll和winutils.exe,用于支持windows2. 解决方法下载hadoop安装包并解压缩到windows硬盘中,可...

2018-05-25 13:28:03 1470

原创 Mysql常用的增删改查语法

1. 表的增删改1. 创建表create table 表名( 列名 数据类型 [约束类型] [comment '备注'], ..., constraint 约束名 约束类型(列名) )engine=innodb defalut charset=uft8;从其他表查询几列数据生成新的表 create table 表名1 as select 列1,列2 from ...

2018-05-24 13:53:45 5917

原创 HDFS特性和常用功能

1. 官方文档:http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html2. 概念:Hadoop Distributed File System Hadoop的分布式文件系统3. 基本特点:高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和...

2018-05-24 10:21:39 5422

原创 Zookeeper简介

1. ZooKeeper是一个分布式协调服务,用于管理大量主机。分布式应用程序并发的在网络中上运行,通过协调不同节点上进程以快速有效的方式完成特定任务。分布式应用程序特点: 高可用,可扩展,透明分布式程序缺点: 竞争条件,死锁,数据的不一致2. zookeeper功能 功能 简介 命名服务 按名称识别集群中的节点。它与DNS类似,但是用于节点。...

2018-05-23 14:47:47 1044

原创 Hadoop简介和常用命令

1. hadoop的节点存储文件首先在NameNode节点中以镜像文件方式保存DataNode节点的目录结构多个DataNode节点负责分布式存储,默认3个节点NameNode通知客户端已准备好存储节点,可以开始存储数据文件直接写入第一个DataNode节点(数据块形式,512k)由第一个节点拷贝至其他节点每完成一个数据块的全节点拷贝,就以日志形式反馈给前节点和文件以及NameNo...

2018-05-23 14:47:06 1388

原创 CentOS7下配置Hadoop集群和Zookeeper集群

1.版本centos7 64位,VM虚拟机12.0,jdk 1.8.0hadoop 2.9.0zookeeper 3.4.6 2.Hadoop集群的配置0. 下载解压安装文件解压命令tar -xzvf 压缩文件名 文件夹路径1. 修改hadoop-env.sh添加jdk环境export JAVA_HOME=/usr/java/jdk1.8.0_144 文...

2018-05-23 13:10:58 1130

原创 大数据特点和基本处理流程

1.大数据的4V特性 中文 英文 大量化 volume 快速化 velocity 多样化 variety 价值化 value2.大数据的基本处理步骤数据获取 flume 数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据数据清洗 mapreduce 清除不需要,错误,无效的数据数据存储 hdf...

2018-05-22 13:35:58 11347

原创 《机器学习实战》笔记03~决策树算法

1.决策树的优缺点优点: 计算复杂度不高,结果易理解,对中间值缺失不敏感,可处理不相关的特征数据缺点: 过度匹配适用: 数值型,标称型

2018-05-21 16:20:54 253

原创 爬虫练习之递归爬取入口页面下所有链接(scrapy-redis分布式)

实现scrapy-redis前的一些准备参考前文,在centos7环境下安装redis,实现远程登录redis服务功能并开启服务 https://blog.csdn.net/wxfghy/article/details/80349405下载scrapy-redis源代码并解压 https://github.com/rmax/scrapy-redispycharm中安装scrapy和s...

2018-05-18 13:49:06 4061

原创 redis简介及单机/集群环境安装

1 Centos7环境下redis的安装在linux环境下,安装gcc和gcc-c++ yum -y install gcc gcc-c++解压缩源文件包到/opt目录下进入redis目录,输入make命令编译当前文件夹进入src目录,输入make install命令,完成安装输入redis-server 命令,前台启动redis(即当前窗口作为守护进程,不可关闭)克隆会话新窗口...

2018-05-17 13:10:24 364

原创 爬虫练习之爬取多个url写入本地文件(scrapy异步)

1. pycharm中运行scrapywindows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目pycharm中打开scrapy项目所在文件夹,任意创建一个.py文件,写入如下代码from scrapy import cmdlinecmdline.execute('scrapy crawl mycsdn'.split())修改Run…...

2018-05-16 21:25:19 4659

原创 爬虫练习之循环爬取网页中全部链接(requsets同步)

先贴代码,之后再写注释,已测试可用import reimport requests# 获取并检验要爬取的网站def url_get(): url = input("请输入要爬取的首页url:") try: kv = {'user_agent': 'Mozilla/5.0'} requests.get(url, headers=kv

2018-05-14 14:02:18 28295 1

原创 算法基本名词解释

欧氏距离 适用环境: 用于描述两个多维点之间的距离曼哈顿距离 适用环境: 用于描述两个多维点之间的距离,比欧氏距离计算更加方便且消除开方后取近视值带来的误差高斯分布(正态分布) 参数说明: 1. exp是e^的意思,即e的指数,e约等于2.72 2. 极值为x=μ时,y=1/(√(2π)σ) 3. μ越大,函数曲线中轴越偏右 4. σ越大,函数曲线坡度越平...

2018-05-10 17:30:13 5121

原创 《机器学习实战》笔记02~K-近邻(KNN)算法(分类)

1.K-近邻算法的优缺点采用测量特征值间的距离的方法进行分类优点在于,精度高,无数据输入假定,对异常值不敏感缺点在于,计算复杂度和空间复杂度高适用于数值型,标称型2.KNN工作原理存在训练样本集,样本集中每个数据都有标签及所属分类新数据输入时,选择样本数据集中前k个(通常k不大于20)距离最近(最相似)的数据统计k个数据中的分类数量,选择次数最多的分类分配给新数据...

2018-05-10 17:20:00 314

原创 《机器学习实战》笔记01~学习算法前的准备

1.机器学习算法的用途监督学习 算法 用途 K-临近算法 线性回归 朴素贝叶斯算法 局部加权线性回归 支持向量机 Ridge回归 决策树 Lasso最小回归系数估计- 无监督学习 算法 用途 K-均值 最大期望算法 DBSCAN Parzen窗设计2.选择算法的依...

2018-05-10 13:58:58 162

原创 CentOS7下配置多台主机间SSH免密服务

1. 修改机器名称1. 输入命令,检查机器名hostname2. 输入命令,临时修改主机名hostname 主机名3. 通过vi命令,修改/etc/hostname文件内容,添加主机名主机名4. 通过vi命令,修改/etc/hosts文件内容,添加每一个机器ip 机器名称IP地址1 主机名1IP地址2 主机名2IP地址3 主机名3...

2018-05-08 21:27:39 2201

原创 CentOS7下修改IP为静态IP

1. 名词解释 变量名 含义 TYPE 网络类型=Ethernet 以太网 BOOTPROTO 引导协议=static 静态地址;=dhcp 动态分配地址 IPADDR 静态IP地址 GATEWAY 默认网关 NETMASK 子网掩码 DNS1 DNS地址 ONBOOT 开机启用本配置=yes...

2018-05-08 20:59:39 1677 1

原创 Shell脚本基础

1. 脚本的执行方法脚本执行器source 1.sh脚本解释器sh 1.sh改文档权限./1.sh修改.sh所在目录到系统变量PATH中,可以通过直接1.sh启动脚本2. 局部变量只存在于当前shell进程,可以用=为变量赋值,set可以显示所有变量,unset删除变量 echo $变量 打印出变量内容echo $? 上一个命令是否正确执行了,正确打印0,否则打印数...

2018-05-08 20:44:43 216

原创 Linux常用命令

1. 目录和标识1.目录 目录名 目录内容 / 根目录 /boot 启动文件 /bin 命令文件 /etc 配置文件 /home 用户文件 /usr 程序文件 /dev 设备文件 /root root用户 . 当前目录 .. 上一级目录 ~ 当前...

2018-05-08 20:31:57 148

原创 MySQL中的事务特点

1. 什么是事务作为单个逻辑工作单元执行的一系列操作,由多条语句组成的集合,要么全部成功,要么全部失败,数据库通过事务来保证数据的一致性2. 数据处理方式1. OLTP 联机事务处理用于关系型数据库,处理传统的日常基本事务操作,数据量不很大,GB级,例如银行交易特点 实时性要求高数据量不是很大,属于GB级别高并发,且满足ACID,供多用户同时访问交易一般是确...

2018-05-08 19:56:12 2134 1

原创 MySQL中常见的名词解释

1.mysql 体系 名称 含义 主子系统 查询引擎+存储/缓冲/事务/恢复管理器 辅助部件 过程管理器:支持mysql独有语法 函数库 支持在sql语句中插入mysql独有函数2.常用术语1.存储引擎 名称 含义 MyISAM 无事务,速度快 INNODB 有事务,功能全,常用...

2018-05-08 15:26:07 5013

原创 数据库简介

1.数据库分类1.no-sql数据库:泛指非关系型数据库特点: 性能高,数据规模小 键值(key-value)存储数据库 redis列存储数据库 hbase文档型数据库 MongoDb图形数据库2.传统数据库特点: 层次型,网状型,面向对象型,关系型主要产品分为三类: IBM DB2,OracleMSSQLServer,Mysqlaccess2....

2018-05-08 14:58:08 597

原创 在CentOS7环境下安装mysql

1. yum在线安装mysql依赖的组件yum install perl gcc kernel-devel autoconf2. 创建mysql用户useradd mysqlpasswd mysql3.解压文件到/usr/localtar -xvzf mysql.tar.gz /usr/local/mysql4.修改mysql/权限为mysql用户chow...

2018-05-08 14:45:55 198

hive所有jar文件

用于Hive和HBase的连接,通过hive操作hbase上的表 解压缩后全部放入hive/lib下,需先删除原有jar

2018-06-25

mysql-connector-java-5.1.38.jar

jdbc连接mysql时会用到的jar文件,通过maven下载并打包成7z文件

2018-06-13

hadoop.dll和winutils.exe

hadoop本身不支持windows平台,本文件用于在idea中用java代码连接远程hadoop时读取本地文件,以下是用法 1. 将hadoop文件从linux下载到windows硬盘中 2. 添加hadoop文件夹到环境变量:HADOOP_HOME ~\hadoop-2.7.6\sbin;~\hadoop-2.7.6\bin 3. 将本文件解压放到~\hadoop-2.7.6\bin 4. 将hadoop.dll放到C:\Windows\System32 5. 重启idea

2018-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除