- 博客(32)
- 资源 (45)
- 收藏
- 关注
原创 空指针异常(从辅助类获取对象之后需要实例化才能保存信息)
ApplicationInfo applicationInfo1 = applicationVo1.getApplicationInfo(); if(applicationInfo1==null){ applicationInfo1 = new ApplicationInfo(); }在向applicationIn
2018-01-31 11:04:39 528
原创 redis失效
redis中的token失效失效可能出现的问题:1、在postman测试时报 5002、控制台:### Error updating database. Cause: org.springframework.jdbc.CannotGetJdbcConnectionException: Could not get JDBC Connection; nested exception
2018-01-31 10:54:09 571
转载 IDEA导出可执行jar包
1. IDEA 导出可执行的Jar换了Idea后今天需要把项目打成 jar放到服务器上运行,稍微整理一下。在IDEA的菜单中选择File–>Project Structure,如下图所示:选择“Artifacts“在出现的图中点击加号在如下的图形中需要注意两个地方:1) 需要选择jar包默认运行的入口类 2) 需要设置MANIFEST.MF的位置,在选择好入口类后
2018-01-25 18:17:40 252
转载 python3 .6 下 报错 RuntimeError: dictionary changed size during iteration
循环字典键值,删除不符合要求的键值对def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine headerTable = {} #go over dataSet twice for trans in dataSet:#first pass counts frequency of
2018-01-25 11:44:17 418 1
原创 自定义分区随机分配解决数据倾斜的问题
1、第一阶段有三个文本待统计(设置分区的个数为3)package com.cr.skew;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.M
2018-01-19 16:32:55 1044
原创 python-类
1、类#新式类(后面会跟一个参数,用于单继承或者多继承的父类)class MyNewObject(object): pass#pass表示不执行任何操作但是在语法上需要一行语句#经典类(没有继承任何其他父类)class MyNewObject: pass2、类的实例化(实例对象的独有属性)#类的实例化(函数调用的形式)if __name__ == '__main__':
2018-01-19 11:06:22 165
原创 Apriori进行关联分析
一、术语解释关联分析:从大规模数据集中挖掘物品之间的隐含关系频繁项集:经常出现在一块的物品集合关联规则:暗示两种物品之间可能存在很强的关联关系项集支持度:数据集中包含该项集的记录比例(这里可以定义一个最小项集的支持度,筛选出那些项集出现次数不是那么多,项集支持度不是那么大的集合)关联规则{a}->{b}置信度:{a,b}的支持度/{a}的支持度二、目标与假设假设商店有4中商品:0 1 2 3而我们
2018-01-18 14:48:54 528
原创 返回三级联动的JSON数据
如下,我们要返回下面的数据格式 { "value": "3", "label": "安徽省", "children": [ { "value": "安庆市", "label": "36", "chi
2018-01-16 18:17:23 2212 1
原创 python3访问map
python2打印map对象可以直接print map但是python3需要将之转为list对象,print(list(map))
2018-01-15 17:01:04 1083
原创 二次排序解析
1、定义组合keypackage com.cr.com.cr.test;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class ComKey implement
2018-01-14 17:02:33 816
原创 org.springframework.jdbc.BadSqlGrammarException:
遇到的问题org.springframework.jdbc.BadSqlGrammarException: ### Error updating database. Cause: java.sql.SQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that correspo
2018-01-12 19:29:46 2817
原创 Hadoop二次排序
1、实现要求:对年份按照升序排列,对气温进行降序排列2、实现步骤1、定义组合keypackage com.cr.secondarySort;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExc
2018-01-09 23:49:49 242
原创 k-均值聚类
1、k-均值聚类1.1、伪代码创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时对数据集中的每个数据点. 对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心1.2、核心代码from numpy import *#将数据集每一行按照tab符号分割,并转为float类型,
2018-01-09 18:11:32 549
原创 Hadoop采样器实现全排序(报错java.io.EOFException)
利用采样器,mapreducer自动将数据按照从大到小的顺序,根据数据分布的概率,自动分区到不同的区域,之前我们是手动设置分区的范围,将数据分区到不同的分区点击打开链接下面我们采用Hadoop内置类-全排序分区类进行自动分区1、mapper类package com.cr.wordcount;import org.apache.hadoop.io.IntWritable;i
2018-01-08 12:43:10 1375 1
原创 Hadoop全排序
1、未分区,按照key排序1、mapper,输出都为intwritablepackage com.cr.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apac
2018-01-07 18:23:10 454
原创 跟踪wordcount计数器的运行信息
1、mapper类package com.cr.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;i
2018-01-05 17:27:17 282
原创 运行wordcount的时候显示INFO mapreduce.Job: map 0% reduce 0%
错误提示:[xiaoqiu@s150 /home/xiaoqiu]$ hadoop jar wordcounter.jar com.cr.wordcount.WordcountApp hdfs://s150/user/xiaoqiu/data/wc.txt hdfs://s150/user/xiaoqiu/data/out18/01/05 09:12:52 INFO client.RMPro
2018-01-05 16:02:43 6256 8
原创 java.io.IOException: Incompatible clusterIDs
启动Hadoop集群的时候,所有的datanode启动不了,报错如下java.io.IOException: Incompatible clusterIDs in /home/xiaoqiu/hadoop_tmp/dfs/data:namenode clusterID = CID-7ecadf3f-9aa7-429a-8013-4e3ad1f28870; datanode clusterI
2018-01-04 23:24:18 840
原创 多输入的wordcount
1、处理序列的mapperpackage com.cr.hdfs;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;im
2018-01-04 21:17:21 208
原创 MapFile检索序列文件
1、MapFile写入文件 /** * mapfile写入文件 * @throws IOException */ @Test public void save() throws IOException { Configuration conf = new Configuration(); conf.set("fs.
2018-01-04 21:02:29 642
原创 单词统计以序列格式输出
wordcount1类/** * wordcount单词统计 */public class wordcount1 { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { //单例作业 Con
2018-01-04 17:00:41 336
原创 序列文件的读取和写入
1、序列文件(二进制)的写入 /** * 写入文件 * @throws IOException */ @Test public void save() throws IOException { Configuration conf = new Configuration(); conf.set("fs.defa
2018-01-04 14:13:53 1291
原创 TypeError: list indices must be integers or slices, not tuple
由于dataset是一个列表>>> dataset[[1.658985, 4.285136], [-3.453687, 3.424321], [4.838138, -1.151539], [-5.379713, -3.362104], [0.972564, 2.924086], [-3.567919, 1.531611], [0.450614, -3.302219], [-3.487105,
2018-01-03 16:33:13 4606 2
原创 IndexError: tuple index out of range
错误代码:def loadDataSet(fileName): #general function to parse tab -delimited floats dataMat = [] #assume last column is target value fr = open(fileName) for line in fr.r
2018-01-03 16:12:05 3671
原创 树回归-CART
1、树回归的提出背景线性回归需要拟合所有的样本(除了局部加权性回归),实际生活中大部分的问题是非线性的。所以需要将数据集进行切分成很多份容易建模的数据,然后利用线性回归的方法进行建模。但是一般一两次的切分仍然不能满足要求,所以就提出了树回归的方法2、CART(classification and regression trees) 分类回归树该算法不仅能用于分类,还能用于回归。2....
2018-01-03 14:33:25 410
原创 支持向量机SVM
SVM的优缺点优点:泛化错误率低,计算开销不大,结果容易解释缺点:对参数的调节和核函数的选择敏感,原始分类器不佳修改仅适用于处理二分类问题SVM的目的:找到一个超平面,也就是分类的决策边界,使得离超平面最近的点尽可能的远,而那些最近的点就是支持向量如何寻找最大间隔:分隔超平面的形式:
2018-01-03 14:32:43 326
原创 Hadoop 文件压缩
1、指定编解码器类 public void deflateCompress() throws IOException { //获取deflate编解码器类 Class codecClass = DeflateCodec.class; //实例化 CompressionCodec codec = (CompressionCodec)
2018-01-02 15:05:40 241
原创 Hadoop集群运行wordcount jar包出错
出错提示[xiaoqiu@s151 /home/xiaoqiu]$ hadoop jar HDFSTest.jar com.cr.hdfs.wordcount1.wordcountAPP hdfs: //s150/usr/xiaoqiu/wordcount hdfs://s150/usr/xiaoqiu/wordcount/outputException in
2018-01-02 11:31:17 458
加密解密 数组排序
2017-07-10
javascript循环
2017-07-10
数据算法 Hadoop Spark大数据处理技巧
2018-01-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人