大数据
文章平均质量分 63
Stupid小池
果壳研究僧/健身小白/前端开发学徒/ladygaga狂热粉
坚持写博客记录自己的学习,“Whether people show up or they don’t, you’re out
there, doing your thing, ready whenever they are.”
展开
-
行业大数据爬虫练习
lxml库的安装:https://blog.csdn.net/weixin_45203459/article/details/102577999原创 2021-05-19 17:21:35 · 390 阅读 · 0 评论 -
行业大数据应用
LESSON11. 举例说明结构化数据、半结构化数据、非结构化数据的区别结构化数据指的是数据在一个记录文件里面以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS(关系型数据库) data;半结构化数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表;非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。2. 请在原创 2021-03-15 22:44:28 · 7524 阅读 · 0 评论 -
贝叶斯定理
基础理论当我们无法基于规则进行判断时, 我们使用概率。Probability vs. Statistics在某种程度上,概率论和统计学的目的是完全相反(inverse)的:In probability theory we consider some underlying process which has some randomness or uncertainty modeled by random variables, and we figure out what happens. 在概率.转载 2020-12-03 18:07:51 · 472 阅读 · 0 评论 -
大数据平台技术:Storm
文章目录Storm的下载与安装基于Storm的wordcount应用实现原理代码将storm写入HDFSStorm的下载与安装参考林子雨教案安装,成功后显示:基于Storm的wordcount应用实现原理先来回忆一下storm的基本组成:wordcount的topo结构:代码首先更新配置文件pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM原创 2020-06-13 12:09:50 · 1057 阅读 · 0 评论 -
从头学习Spark:SparkStreaming编程实践_WordCount
WordCount例子需求介绍:使用 netcat 工具向 9999 端口不断的发送数据,通过 Spark Streaming 读取端口数据并统计不同单词出现的次数过程(1)在xml文件中添加streaming的依赖并等待刷新,pom.xml文件内容如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http原创 2020-06-07 10:11:22 · 372 阅读 · 0 评论 -
从头学习Spark2:RDD
spark其余的两种部署模式standalone和yarn先放一放。原创 2020-06-04 09:23:12 · 135 阅读 · 0 评论 -
从头学习Spark1:WordCount在shell和IDEA中的编程实践
基本思路原创 2020-06-03 10:58:34 · 183 阅读 · 0 评论 -
SparkStreaming编程实践
文章目录SparkStreaming以socket & 文本为数据源的WordCount实例需求介绍:具体过程:以Flume & Kafka作为高级数据源Flume的原理介绍编程实践整合方式1:推(PUSH)整合方式2:拉(poll)参考资料SparkStreaming以socket & 文本为数据源的WordCount实例需求介绍:使用 netcat 工具向 9999 端口不断的发送数据,通过 Spark Streaming 读取端口数据并统计不同单词出现的次数具体过程:原创 2020-05-31 21:13:04 · 11310 阅读 · 0 评论 -
大数据平台技术:Spark实践
在IDEA中开发基于scala的wordcount程序(Scala+Maven)参考林子雨教程和尚硅谷大数据视频按照步骤来基本可以顺利搞定运行jar包:cd ~/usr/local/spark/bin/spark-submit --class WordCount /home/hadoop/WordCount.jar最后得到的结果截图:基于Spark实现两个mp任务串联使用的仍然是上一篇博客中的代码,两个mapreduce的job串联运行,第一个job进行分词和词频统计,第二个job统计共原创 2020-05-17 20:43:01 · 942 阅读 · 0 评论 -
大数据平台技术——Scala+Hbase学习
文章目录Scala部分2.Hbase部分2.1 简介什么是HBase与其他部分的关系Hbase的数据模型HBase架构Hbase访问接口Hbase存储格式2.2 安装与运行2.3 一些基本操作其他增加的小知识点Scala部分var 是 variable(变量,可变物)或者是variation的简写。2.Hbase部分2.1 简介什么是HBase是一个NoSQLHadoop项目中的一部分基于HDFS运行HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTa原创 2020-05-17 20:41:39 · 314 阅读 · 0 评论 -
大数据平台技术:Spark编程实践
实践目标:Spark的安装SPark的基础操作Spark shell实践WordCount例子Spark的安装参考林子雨的Spark操作指南[1]进行安装,注意选择安装包的时候,选without-hadoop的版本。启动Spark Shell运行scala版的WordCount如何获取hdfs上的端口号?hdfs getconf -confKey fs.default.name编写wordcount代码程序,关于这段代码的解释在博客中[2]可以找到。sc.textFi.原创 2020-05-10 22:32:13 · 524 阅读 · 0 评论 -
大数据平台:Spark基础+Hadoop回顾
第一部分:dive in SparkSpark简述旨在“使数据分析更快”的大数据处理框架。速度进步明显。易用:使用更加简洁优雅的Scala语言编写,但同时也支持多种语言编程。有完整强大的技术栈。适应能力强,运行模式多样。Spark提供的生态系统可一站式满足批处理、交互式查询和流数据处理这三个实际应用中基本的大数据处理类型。多数情况下,Spark的任务是专注于数据的分析处理,数据存储...原创 2020-05-03 23:56:07 · 725 阅读 · 0 评论 -
wordcount进化:统计总共单词个数+ 自定义Combiner、 Partioner 类
task1:WordCount统计总共单词个数任务描述wordcount上一次的任务是统计每个单词出现的次数,现在的功能要修改成统计文本中一共有多少个不同的单词。解决思想两个mapreduce的job串联运行,第一个job进行分词和词频统计,第二个job统计共有多少词,job2的map把每行都输出成<sum,1>,reduce任务不做修改,结果即为所求单词总数。具体实现代...原创 2020-04-26 16:40:58 · 857 阅读 · 0 评论 -
pandas数据分析:剔除数据相同或全为空的列
代码:def dropNullStd(data): beforlen = data.shape[1] colisNull = data.describe().loc['count']==0 #colisNull中1代表该列是空,0代表不为空 for i in range(len(colisNull)): if colisNull[i]: ...原创 2020-04-14 12:36:40 · 2787 阅读 · 0 评论 -
自定义一个hadoop数据类型
import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class Point3D implements WritableComparable<Point3D> { ...原创 2020-04-11 12:09:14 · 147 阅读 · 0 评论 -
MapReduce实例WordCount的编程实现与Hadoop数据类型介绍
目录:Hadoop数据类型介绍WordCount编程实现WordCount部署运行参考Hadoop数据类型介绍我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了,那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比:(1) 在hadoop.io包,主要...原创 2020-04-11 12:02:44 · 335 阅读 · 0 评论 -
MapReduce
介绍MapReduce是一种并行编程模型,计算过程高度抽象成Map和Reduce两个函数,屏蔽了底层细节。MapReduce的策略:分而治之MapReduce的理念计算向数据靠拢。架构Master/slave函数介绍:Reduce函数的输入输出:MR的体系结构组件解释以slot为单位进行资源调度MapReduce的工作流程...原创 2020-04-05 17:08:25 · 147 阅读 · 0 评论 -
分布式文件系统 笔记
shell命令风格教材《大数据技术原理与应用》的命令是以”./bin/hadoop dfs”开头的Shell命令方式,实际上有三种shell命令方式。hadoop fshadoop dfshdfs dfshadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统hadoop dfs只能适用于HDFS文件系统hdfs dfs跟hadoop dfs的命令作...原创 2020-04-05 15:48:53 · 114 阅读 · 0 评论 -
上传文件到HDFS报错:There are 0 datanode(s) running and 0 node(s) are excluded in this operation.
上传文件到HDFS的时候报错_COPYING_ could only be written to 0 of the 1 minReplication nodes. There are 0 datanode(s) running and 0 node(s) are excluded in this operation.解决原因似乎是因为datanode没有启动,查了解决方法,最终stakeo...原创 2020-04-05 15:39:14 · 2976 阅读 · 0 评论 -
双系统安装Hadoop
参考林子雨的教程视频慕课:bilibili.com/video/av61622755?p=12详细图文教程:http://dblab.xmu.edu.cn/blog/2441-2/主要还是读这个教程,一路下来没有出现任何问题,大概15分钟就可以安装完成。...原创 2020-02-23 19:28:14 · 432 阅读 · 0 评论