大数据
文章平均质量分 63
zhangyingchengqi
学无止境。
展开
-
centos7安装ganglia监控
centos7中安装与配置ganglia完成集群中节点监控原创 2022-07-01 21:00:22 · 1456 阅读 · 0 评论 -
解决Flume数据采集中出现的几个问题
22/06/23 12:08:58 ERROR hdfs.HDFSEventSink: process failed sinkjava.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null原创 2022-06-23 12:50:23 · 1583 阅读 · 0 评论 -
idea中big data tools工具联接hadoop错误
idea中的big data tools工具联接hadoop集群问题.原创 2022-06-08 20:57:41 · 998 阅读 · 1 评论 -
IDEA项目打包jar流程
1. 创建一个maven项目,书写代码.import java.io.FileOutputStream;import java.io.IOException;public class Test { public void run() throws IOException { // 根据需求编写具体代码 FileOutputStream fos = new FileOutputStream("/usr/local/azkaban/tasks/outp...原创 2021-07-31 19:14:38 · 282 阅读 · 0 评论 -
zookeeper使用Jute进行序列化及反序列化
Zookeeper在网络传输时使用的是Jute进行序列化和反序列化,官方也提出过要使用类似于Apache Avro、Thrift或是Google的protobuf这样的组件来替换Jute,但考虑到新老版本组件的兼容性,官方对替换序列化组件工作的推进持保守和观望态度。`import lombok.Data;import org.apache.jute.*;import org.apache.zookeeper.server.ByteBufferInputStream;import java.io.By转载 2021-07-06 19:47:32 · 312 阅读 · 0 评论 -
分布式系统的CAP原则
分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。 分布式系统的最大难点,就是各个节点的状态如何同步。CAP 定理是这方面的基本定理,也是理解分布式系统的起点。 CAP原则又称CAP定理,它是在1998年,由加州大学的计算机科学家 Eric Brewer 提出,分布式系统有三个指标指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(...原创 2020-10-11 18:14:52 · 450 阅读 · 0 评论 -
java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord
spark streaming 2.0 从kafka2.11中读取数据,出现以下错误java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecordSerialization stack: - object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord, value: ConsumerRecord(原创 2020-06-04 22:41:41 · 1243 阅读 · 0 评论 -
netcat工具安装
netcat(nc)是一个简单而有用的工具,被誉为网络安全界的“瑞士军刀”,不仅可以通过使用TCP或UDP协议的网络连接读写数据,同时还是一个功能强大的网络调试和探测工具,能够建立你需要的几乎所有类型的网络连接。mac版安装: https://www.cnblogs.com/ChristianKula/p/9385203.htmlcentos安装:https://www.cnblogs.com/bigdata-stone/p/9376376.html...原创 2020-05-30 11:08:52 · 1954 阅读 · 0 评论 -
阿里云 centos7 下安装 mysql5
#在/usr/local下创建mysql目录,用于保存 mysql程序文件 mkdir /usr/local/mysql# 利用 xftp 将mysql-5.5.47-linux2.6-x86_64.tar上传到/usr/software目录,再解压后移动到 /usr/local/mysql目录下cd /usr/software/ tar -xvf ./mysql-5.5...原创 2019-12-07 20:34:19 · 211 阅读 · 0 评论 -
阿里云 centos7 下安装 redis 5
一、安装redis第一步:下载redis安装包 redis-5.0.7.tar.gz第二步:解压压缩包 #tar -zxvf redis-5.0.7.tar.gz第三步:yum安装gcc依赖 #yum install gcc第四步:跳转到redis解压目录下 #cd /usr/local/redis-5.0.7重命名 mv /usr/local/...原创 2019-12-07 19:35:27 · 564 阅读 · 0 评论 -
省市的json格式数据
{"provinces": [ { "citys": [ { "citysName": "石家庄市" }, { "citysName": "邯郸市"原创 2018-11-30 11:52:14 · 1291 阅读 · 0 评论 -
远程访问服务器jupyter notebook
在工作环境用的是windows xp系统, 上面安装anaconda只能安装到 python3.4, 有很多模块用起来很不方便, 正好自己的笔记本是mac, 想将mac上的notebook 做成一个服务器,用工作电脑window 的浏览器来访问这个服务器.参考: https://blog.csdn.net/u012325865/article/details/80410949 按上面方法做,但有一...原创 2018-05-29 10:50:34 · 466 阅读 · 0 评论 -
大数据知识体系_探索数据_数据汇总_可视化_多维数据分析
探索数据 汇总统计 频率和众数 分类属性的众数是具有最高频率的值 百分位数 位置度量:均值和中位数 截断均值 散布度量: 极差和方差 标准差 绝对平均偏差 ADD 中位数绝对偏差 MAD 四分位数极差 IQR 多元汇总统计 其他方法 可视化 动机 一般概念 表示:将数据映射到图形元素 安排 选择原创 2017-12-01 11:23:36 · 678 阅读 · 0 评论 -
关于数据的相关知识点
数据 数据类型 属性与度量 什么是属性 属性类型 属性的不同类型 分类的 标称 序数 数值的 区间 比率 用值的个数描述属性 离散的 连续的 非对称属性 数据集的类型 一般特征 维度 稀疏性 分辨率 三种类型 记录数据 事务数据或原创 2017-12-01 11:18:17 · 462 阅读 · 0 评论 -
推荐算法
# coding: utf-8# In[33]:#!/usr/bin/env python2"""Created on Mon May 22 18:27:58 2017@author: yingzhang推荐协作型过滤算法: 先对一大群人进行搜索,并从中找出与我们品味相近的一小群人。htaifc会地这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐算原创 2017-05-24 17:38:23 · 923 阅读 · 1 评论 -
数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归
# coding: utf-8 # 利用 diabetes数据集来学习线性回归# diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。 # 数据集中的特征值总共10项, 如下: # 年龄 # 性别 #体质指数 #血压 #s1,s2,s3,s4,s4,s6 (六种血清的化验数据) #但请注原创 2017-02-01 16:35:36 · 20349 阅读 · 2 评论 -
数据挖掘-Iris数据集分析-决策边界_根据花瓣数据绘制(七)
# coding: utf-8 # 使用花瓣测量数据绘制 2D散点图,并绘出决策边界import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn import datasetsfrom sklearn.neighbors import原创 2017-02-01 14:06:17 · 3066 阅读 · 0 评论 -
数据挖掘-Iris数据集分析-决策边界(六)
# coding: utf-8 # 使用萼片测量数据绘制 2D散点图,并绘出决策边界import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn import datasetsfrom sklearn.neighbors import原创 2017-02-01 13:58:30 · 2704 阅读 · 0 评论 -
数据挖掘-K-近邻分类器-Iris数据集分析-使用K-近邻分类器进行分类预测(四)
K-近邻分类器完成分类原创 2017-01-30 19:06:55 · 2742 阅读 · 0 评论 -
Ubuntu14.04下安装Hadoop2.4.0 (单机模式)
一、在Ubuntu下创建hadoop组和hadoop用户 增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户1、创建hadoop用户组2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop 回车后会提示输入新的UNIX密码转载 2015-10-05 15:00:21 · 690 阅读 · 0 评论 -
大数据企业
1. 全球最具影响力的大数据企业概览2. 大数据领域最为活跃的国内企业概览3. 倍受青睐的大数据分析工具4. 十大企业级大数据分析利器转载 2015-09-23 10:52:07 · 333 阅读 · 0 评论 -
大数据算法解读
KNN(K Nearest Neighbors)算法,分类算法假设你周围两类人,一类人是篮球爱好者,一类人是足球爱好者。如果你是篮球爱好者,你就会和篮球爱好者走的近一点,反之一样。这是KNN的算法出发点。一个未知分类的样本,要知道他是属于哪一类,看它周围的哪类朋友多一点,他就属于这一类。K均值(K Means)算法,聚类算法一个公司设计班车站点,在一个城市里转载 2016-02-07 22:43:34 · 674 阅读 · 0 评论 -
欧氏距离
欧氏距离定义: 欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是d = sqrt((x1-x2)^+(y1-y2)^)三维的公式是d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)推广到n维空间,欧式距离的公式是d原创 2016-03-03 12:49:06 · 15822 阅读 · 0 评论 -
map reduce简介
MapReduce是为了解决传统HPC框架在面对海量数据时扩展困难而产生的。MapReduce致力于解决大规模数据处理的问题,利用局部性原理将整个问题分而治之。 MapReduce集群由普通PC机构成,为无共享式架构。在处理之前,将数据集分布至各个节点。处理时,每个节点就近读取本地存储的数据处理(Map),将处理后的数据进行合并(Combine)、排序(Shuffle and转载 2016-02-23 14:25:46 · 1074 阅读 · 0 评论 -
大数据集地址
Yahoo官网提供的大数据集地址: 点击打开链接原创 2016-02-26 09:24:44 · 11202 阅读 · 3 评论 -
开放数据集
商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个:UCL机器学习知识库包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/Amazon AWS公开数据集包含的通常是大型数据集,可通转载 2016-03-24 09:51:14 · 8484 阅读 · 1 评论 -
国内大数据交易平台
自国家颁布大数据纲要以来,数据交易的话题一路火到现在,对于数据流通的争论也从来没停歇。有争议的话题不多说,该由市场解决的问题留给时间去处理。小编在这里尽量以客观的角度带大家浏览各大数据交易平台的现状。一、背景大数据交易市场和洛克菲勒时期的美国石油市场如出一辙,政府、企业巨头、草根人物全都参与其中。但总体看来集中度还不高,交易规模也并不大,尚属于处女地,等待着那个一统天下的英雄的出现转载 2016-10-12 11:42:45 · 5099 阅读 · 0 评论 -
spark机器学习练习代码
# coding: utf-8# In[1]:user_data=sc.textFile("spark机器学习/数据集/ml-100k/u.user")user_data.first()# In[72]:user_fields=user_data.map(lambda line:line.split("|"))print user_f原创 2016-12-13 15:27:22 · 1108 阅读 · 0 评论 -
数据挖掘-商品购买记录-商品推荐_亲和度分析
# coding: utf-8 import numpy as npdataset_filename="affinity_dataset.txt"#加载数据文件dataset=np.loadtxt(dataset_filename)'''数据结果:array([[ 0., 0., 1., 1., 1.], [ 1., 1., 0., 1., 0.]原创 2017-02-05 17:13:12 · 2953 阅读 · 1 评论 -
数据挖掘-ionosphere数据集-k近邻算法-分类预测
#!/usr/bin/env python2# -*- coding: utf-8 -*-#检测系统用户路径import oshome_folder=os.path.expanduser("~")print("user's path {0}".format(home_folder))#拼接数据集位置data_folder=os.path.join(home_folder,"Dat原创 2017-02-05 22:02:06 · 3444 阅读 · 0 评论 -
数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法
#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on Tue Feb 7 14:38:33 2017电影推荐分析: 使用 亲和性分析方法 基于 Apriori算法 推荐电影@author: yingzhang"""#读取数据集: http://grouplens.org/datasets/movielen原创 2017-02-08 10:48:43 · 11053 阅读 · 3 评论 -
数据挖掘-K-近邻分类器-Iris数据集分析-根据花萼长宽分类-以散点图显示(一)
# %load python_8_1.py 此命令以加载本脚本到到ipython中 # coding: utf-8from sklearn import datasetsiris=datasets.load_iris()#数据集描述信息iris.DESCR#iris数据集的数据iris.data#以上总共150组数据,对应以下150个结果iris.target#0原创 2017-01-29 22:29:54 · 2221 阅读 · 0 评论 -
数据挖掘-K-近邻分类器-Iris数据集分析-根据花瓣长宽分类-以散点图显示(二)
# %load python_8_2.py 此命令以加载本脚本到到ipython中 # coding: utf-8from sklearn import datasetsiris=datasets.load_iris()#数据集描述信息iris.DESCR#iris数据集的数据iris.data#以上总共150组数据,对应以下150个结果iris.target#0原创 2017-01-29 22:37:55 · 2382 阅读 · 0 评论 -
数据挖掘-K-近邻分类器-Iris数据集分析-PCA降维处理后显示分类情况(三)
# coding: utf-8#使用PCA(principal component analysis主成分分析法)减少系统的维数( 因为以上四个测量数据减少到三个后,就可以使用3D散点图更好的描述)#PCA可以保留足以描述各数据点特征的信息,其中新生成的各维叫主成分.#scikit-learn库中的fit_transform()函数就是用来降维处理的. #PCA对象简介 : http:原创 2017-01-30 17:42:56 · 2622 阅读 · 0 评论 -
数据挖掘-oneR算法-Iris数据集分析-使用oneR算法进行分类预测(五)
接上一篇,使用 oneR算法来实现iris分类. # coding: utf-8 #使用oneR算法来实现iris分类#参考: http://www.cnblogs.com/htynkn/archive/2012/04/14/2446905.html#算法思路: 根据已有数据中,具有相同特征值的个体最可能属于哪个类别进行分类.#oneR是one rule(一条规则)的简写, 表示原创 2017-01-30 22:26:59 · 2547 阅读 · 0 评论 -
关系型与非关系型数据介绍
(1)关系型数据库:关系型数据库,是指采用了关系模型来组织数据的数据库。简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。关系模型中常用的概念:关系:可以理解为一张二维表,每个关系都具有一个关系名,就是通常说的表名元组:可以理解为二维表中的一行,在数据库中经常被称为记录属性:可以理解为二维表中的一列,在数据库中经常被称为字转载 2015-08-24 22:31:38 · 4677 阅读 · 0 评论