大数据
文章平均质量分 75
bug智造
学生党一枚,时间有限,精力有限,技术有限,在持续不断充电学习中
展开
-
记一次腾讯云搭建Hadoop伪分布报错
在腾讯云上搭建Hadoop伪分布式集群的时候格式化成功,启动进程不报错,查看进程发现少了namenode,去看日志发现以下报错问题ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.java.net.BindException: Problem binding to [hadoop:9000] java.net.BindException: Cannot assign requested add原创 2022-04-10 17:35:20 · 1936 阅读 · 0 评论 -
centos7更换yum源
在centos7下载软件包的时候发现下载速度太慢了,于是将yum源更换成了阿里源阿里云yum源:1 备份当前yum源防止出现意外还可以还原回来cd /etc/yum.repos.d/cp /CentOS-Base.repo /CentOS-Base-repo.bak2 使用wget下载阿里yum源repo文件wget http://mirrors.aliyun.com/repo/Centos-7.repo3 清理旧包yum clean all4 把下载下来阿里云repo文件设置成为默认源原创 2022-04-04 16:00:05 · 1422 阅读 · 0 评论 -
基于Hadoop安装spark集群
基于Hadoop的spark环境搭建已有环境情况Hadoop HAJava软件版本Hadoop 2.7.2Java 1.8.0_301Scala 2.11.8Spark 2.1.0下载地址Scala下载地址:Index of /dist/sparkSpark下载地址:Index of /dist/spark安装下载好的安装包,进行解压解压命令如下:tar -zxvf 压缩包 -C 解压所至的目录tar -zxvf scala-2.11.8.tgz.原创 2022-04-01 22:25:25 · 2659 阅读 · 0 评论 -
Hadoop集群搭建HA高可用版
Hadoop HA搭建前提需要准备三台虚拟机创建三台虚拟机,主机名分别更改为hadoop01,hadoop02,hadoop03Hadoop部署如下 主机名 主机IP hadoop01 192.168.197.101 hadoop02 192.168.197.102 hadoop03 192.168.197.103 以下更改原创 2022-03-31 20:49:15 · 2914 阅读 · 0 评论 -
Windows本地Hadoop环境及Idea调试
Windows本地Hadoop环境及Idea调试前提需要所需要的文件1.Hadoop2.Java3.替换文件本机用的Hadoop是hadoop2.7.2,Java是1.8.0_202替换文件下载地址:https://github.com/cdarlint/winutilsJava环境安装在本地D:\software\Java\jdk1.8.0_202Hadoop环境安装在本地D:\Hadoop\hadoop配置环境变量搜索栏搜索环境变量,并双击打开正在上传原创 2022-03-22 17:04:48 · 5190 阅读 · 2 评论 -
MapReduce单词计数实验(WordCount)
MapReduce单词计数WordCount大致流程一:启动Hadoop集群二.编写mapreduce程序代码三:将写好的java代码打包jar四:将jar上传至服务器,即Hadoop集群中五:运行jar程序hadoop jar Word.jar hdfs://hadoop01:9000/word.txt output命令:hadoop jar jar包名 输入文件名 输出目录详细步骤前期准备工作xshell分别远程连接三台虚拟机hadoop01,hadoop原创 2022-03-07 00:01:58 · 3121 阅读 · 0 评论 -
2022年大数据技能大赛训练
任务书3赛题说明竞赛内容分布 竞赛时长 任务一:Spark 组件部署管理(Standalone 模式) 15% 任务二:数据采集 20% 任务三:数据清洗与分析 30% 任务四:数据可视化 20% 任务五:综合分析 ...原创 2022-02-20 08:57:06 · 1860 阅读 · 0 评论 -
2022年江苏省大数据技能大赛训练(2022.1.8)
任务书4任务说明请按照下面步骤完成本次技术展示任务,并提交技术报告。模块一:环境搭建任务一:Hadoop组件部署管理(集群模式)说明:本环节需要使用 root 用户完成相关配置,具体部署要求如下:1、 在 master节点(/opt/package) 解 压 java、hadoop安装包 ,将解压后的安装文件移动到各个节点“/usr/local/src”路径下并更名为jdk ,将全部命令复...原创 2022-02-20 08:50:33 · 1366 阅读 · 0 评论 -
2021年全国职业院校技能大赛大数据应用技术国赛题
大数据技能大赛原创 2022-02-20 08:44:24 · 3206 阅读 · 0 评论 -
Hadoop技术原理与应用
Hadoop数据处理(2020年大二上实训)一、项目背景本次实训内容为汽车销售数据统计分析项目。通过这个项目,加深对HDFS分布式文件系统和MapReduce分布式并行计算框架的理解,熟练掌握和应用,并且体验大数据企业实战项目的开发过程,积累实际项目开发的经验。二、项目开发实战(一)设计思路分析1.任务七:统计分析不同车型销售数据我们的需求是统计某一个月份各个类型车辆的总销售量,在这里,我们以9月份为例进行统计,那么需要过滤出9月份的汽车总销售数组,然...原创 2022-02-19 14:10:52 · 2234 阅读 · 0 评论 -
scrapy爬虫练习-中财网股票数据爬取
settings.py# 添加如下代码指定输出字段顺序FEED_EXPORT_FIELDS = ['code', 'name', 'new', 'rise_fall', 'price_limit', 'harvest', 'opening', 'high', 'low', 'volume', 'turnover', 'ratio', 'rate', 'capital', 'currency', 'company', 'trade', 'time', 'capitals', 'A_shares']..原创 2022-01-07 12:02:43 · 822 阅读 · 0 评论 -
数据采集+数据可视化练习(2022-1-6)
任务书3赛题说明竞赛内容分布 竞赛时长 任务一:Spark 组件部署管理(Standalone 模式) 15% 任务二:数据采集 20% 任务三:数据清洗与分析 30% 任务四:数据可视化 20% 任务五:综合分析 ...原创 2022-01-09 15:34:43 · 2708 阅读 · 0 评论 -
scrapy-北京新发地 爬虫实战练习
北京新发地新发地-价格行情根据网页源代码结构查看,发现数据是在json内,且为post请求根据分析可得,http://www.xinfadi.com.cn/getPriceData.html为具体数据的基础urlhttp://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1的url中,limit参数为一页数据量为20条数据,current为页数文件目录结构settings.py# ..原创 2022-01-05 10:28:45 · 583 阅读 · 0 评论 -
scrapy-中国气象局·天气预报
中国气象局·天气预报中国气象局-天气预报-城市预报创建工程及爬虫文件,具体文件结构如下items.py文件import scrapyclass WeatherItem(scrapy.Item): place = scrapy.Field() city = scrapy.Field() week = scrapy.Field() date = scrapy.Field() day_weather = scrapy.Field() ...原创 2022-01-04 20:43:49 · 446 阅读 · 0 评论 -
Scrapy问题总结
使用scrapy crawl gp -o gp.csv命令保存为csv文件时输出的结果没有按照items的顺序来解决方案:修改setting.py添加一行FEED_EXPORT_FIELDS = ["code", "name", "price", "fluctuation", "change_amount", "turnover", "turnover_amount", "amplitude", "rate"]列表内表示的是自己在items定义的字段,即要输出结果的字段顺序...原创 2022-01-03 18:24:45 · 1331 阅读 · 0 评论 -
Sklearn初学(线性回归)
data.csv文件from sklearn.linear_model import LinearRegressionimport numpy as npfrom matplotlib import pyplot as plt# 用numpy读取文件,加载数据data = np.genfromtxt('data.csv',delimiter=',')x_data = data[:,0]y_data = data[:,1]# 画出散点图plt.scatter(x_data,y_d.原创 2021-12-25 08:01:26 · 447 阅读 · 0 评论 -
Requests爬虫实战练习
中关村在线首页爬取观察网页源代码目录中关村在线首页爬取观察网页源代码东方财富网股票数据获取浙江板块浙江板块和广东板块的数据获取 首页的手机基本信息,包括手机型号,手机价格,手机评分 手机详情页的信息,包括京东价格,性价比,性能,续航,外观,拍照 网址:【手机大全】手机报价及图片大全-ZOL中关村在线base_url:IT数码产品报价大全_中关村在线报价_专业IT数码产品中心-中关村在线产品库phone_url:cell_phone_index/subc原创 2021-12-24 21:21:32 · 572 阅读 · 0 评论 -
Hadoop分布式集群搭建
Hadoop分布式集群搭建环境说明:Hadoop分布式集群架构是主从架构,这里要搭建一个3台服务器的集群三台centos7主机,其中一个主节点master,两个从节点服务器slave用户名都为root,主机名分别为master,slave1,slave2步骤如下:1.安装CentOS7 创建虚拟机 单击左上角文件→新建虚拟机,创建虚拟机 选择指定的Centos7系统镜像文件 填写虚拟机信息 默认一直下一步即可,之后点击完成系统会自动重启原创 2021-10-07 22:23:06 · 2469 阅读 · 0 评论