练习
文章平均质量分 82
John Zhuang
心如止水
展开
-
Spark大数据分析与实战:基于Spark MLlib 实现音乐推荐
Spark大数据分析与实战:基于Spark MLlib 实现音乐推荐基于Spark MLlib 实现音乐推荐一、实验背景:熟悉 Audioscrobbler 数据集基于该数据集选择合适的 MLlib 库算法进行数据处理进行音乐推荐(或用户推荐)二、实验目的:计算AUC评分最高的参数利用AUC评分最高的参数,给用户推荐艺术家对多个用户进行艺术家推荐利用AUC评分最高的参数,给艺术家推荐喜欢他的用户三、实验步骤:安装Hadoop和Spark启动Hadoop与Spark将文件上传到原创 2021-06-26 16:29:32 · 18357 阅读 · 258 评论 -
Spark大数据分析与实战:基于Spark框架实现TopN
Spark大数据分析与实战:基于Spark框架实现TopN基于Spark框架实现TopN一、实验背景:基于Spark框架实现TopN二、实验目的:获取蜀国武将中武力值最高的5位,即通过分布式计算框架实现从原始数据查询出武力最高的Top5三、实验步骤:启动 hadoop创建 rank.txt 文件将 rank.txt 文件上传到 HDFS 上实现TopN计算查看 HDFS 上的结果四、实验过程:1、启动 hadoopShell命令:[root@master ~]# cd /原创 2021-06-26 15:37:05 · 10612 阅读 · 49 评论 -
Hive查询分析计算:技术论坛业务相关指标分析
Hive查询分析计算案例:股票分析一、实验背景:项目来源本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1 项目来源网站-技术学习论坛本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。PS: 开发该系统的目的是为了获取一些业务相关的指标,这些指标在第三方工具中无法获得的;数据情况该论坛数据有两部分:(1)历史数据约56GB,统计到原创 2021-06-25 22:02:25 · 9662 阅读 · 20 评论 -
R语言与数据分析练习:使用Apriori算法实现网站的关联分析
R语言与数据分析练习:使用ARIMA模型预测网站访问量使用ARIMA模型预测网站访问量一、实验背景:基于某网站的访问数据,使用Apriori算法对网站进行关联分析二、实验目的:预测网站访问量三、实验设计方案和流程图:实验设计方案:由于实验1已对数据进行处理,这里我们只需要根据题目要求取出需要的数据。建立一个列表,每个列表代表一个用户访问的网站,将列表转为数据框,保存到本地。创建网站的二元矩阵,将每一个用户访问的ip改为1,导出二元矩阵。构建关联规则模型,把数据转换成关联规则需要的数原创 2021-06-25 17:57:44 · 9700 阅读 · 10 评论 -
R语言与数据分析练习:使用协同过滤算法实现网站的智能推荐
R语言与数据分析练习:使用协同过滤算法实现网站的智能推荐使用ARIMA模型预测网站访问量一、实验背景:基于实验1中某网站2016年9月每天的访问数据,使用基于内容的协同过滤算法实现网站的智能推荐,帮助客户发现他们感兴趣但很难发现的网页信息二、实验目的:使用协同过滤算法实现网站的智能推荐三、实验设计方案和流程图:实验设计方案:由于实验1已对数据进行处理,这里我们只需要根据题目要求取出2016年9月份的数据。取出数据后,对字段ID的空值进行处理。处理完数据,我们可以构建一个二元型数据。原创 2021-06-25 17:52:18 · 9529 阅读 · 4 评论 -
R语言与数据分析练习:使用ARIMA模型预测网站访问量
R语言与数据分析练习:使用ARIMA模型预测网站访问量使用ARIMA模型预测网站访问量一、实验背景:随着流量的增大,某网站的数据信息量也在以一定的幅度增长基于该网站2016年9月~2017年2月每天的访问量,使用ARIMA模型预测网站未来7天的访问量二、实验目的:预测网站未来7天的访问量三、实验设计方案和流程图:实验设计方案:由于我们获取的原数据文件为sql类型的,因此我们需要将原数据文件导入mysql,再通过R语言中的方法连接mysql进行数据的读取。读取数据之后,对数据进行观察。原创 2021-06-25 17:46:53 · 10507 阅读 · 9 评论 -
Docker学习之路06:基于 Docker 在Ubuntu系统部署Hadoop、Hbase以及Spark
基于 Docker 在Ubuntu系统部署Hadoop、Hbase以及SparkDocker学习路线传送门:Docker的安装:https://blog.csdn.net/weixin_47580081/article/details/114856083阿里云镜像加速器:https://blog.csdn.net/weixin_47580081/article/details/114858556Docker的常用命令:https://blog.csdn.net/weixin_47580081/ar原创 2021-06-25 17:18:54 · 9898 阅读 · 8 评论 -
Spark大数据分析与实战:Spark Streaming编程初级实践
Spark Streaming编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作:Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420Scala及Spark的安装:https://blog.csdn.net/weixin_47580081/article/details/114250894提示:如果IDEA未构建Spark项目,可以转接到以下的博客原创 2021-04-23 15:08:33 · 14636 阅读 · 6 评论 -
Spark大数据分析与实战:IDEA使用Maven构建Spark项目
Spark大数据分析与实战:IDEA使用Maven构建Spark项目一、创建maven工程二、修改pom.xml文件导入依赖pom.xml文件代码如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi原创 2021-04-05 00:12:50 · 38407 阅读 · 4 评论 -
Spark大数据分析与实战:Spark SQL编程初级实践
Spark大数据分析与实战:Spark SQL编程初级实践一、Spark SQL基本操作将下列JSON格式数据复制到Linux系统中,并保存命名为employee.json。{“id”:1,“name”:“Ella”,“age”:36}{“id”:2,“name”:“Bob”,“age”:29}{“id”:3,“name”:“Jack”,“age”:29}{“id”:4,“name”:“Jim”,“age”:28}{“id”:4,“name”:“Jim”,“age”:28}{“id”:5,“原创 2021-04-15 21:17:35 · 24276 阅读 · 3 评论 -
Docker学习之路05:五分钟用docker compose搭建一个自己的个人博客网站!
五分钟用docker compose搭建一个自己的个人博客网站!一、准备工作前期需要安装docker和配置镜像加速器如果还不会的同学可以看下我的《Docker学习之路01:Docker的安装》和《Docker学习之路02:阿里云镜像加速器》然后今天我们是用 docker compose 来实现的,所以需要安装 docker compose# 其中 /usr/docker-compose 是大家安装docker-compose的目录,不需要提前创建!sudo curl -L https://get原创 2021-04-13 20:02:08 · 22631 阅读 · 2 评论 -
R语言与数据分析练习:创建和使用R语言数据集&数据的导入导出
R语言与数据分析练习:创建和使用R语言数据集&数据的导入导出实验一 创建和使用R语言数据集一、实验目的:了解R语言中的数据结构。熟练掌握他们的创建方法,和函数中一些参数的使用。对创建的数据结构进行,排序、查找、删除等简单的操作。二、实验内容:1、向量的创建及因子的创建和查看有一份来自澳大利亚所有州和行政区的20个税务会计师的信息样本1 以 及他们各自所在地的州名。州名为:tas, sa, qld, nsw, nsw, nt, wa, wa, qld, vic, ns原创 2021-04-07 21:25:24 · 46375 阅读 · 0 评论 -
R语言与数据分析练习:选择适当模型拟合某股票连续若干天的收盘价序列的发展
R语言与数据分析练习:选择适当模型拟合某股票连续若干天的收盘价序列的发展ARIMA模型ARIMA模型(英语:Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),是时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。“差分”一词虽未出现在ARIMA的英文名称中,却是关键步原创 2021-04-06 21:07:59 · 42347 阅读 · 1 评论 -
Spark大数据分析与实战:RDD编程初级实践
Spark大数据分析与实战:RDD编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作Linux基础环境搭建(CentOS7)- 安装HadoopLinux基础环境搭建(CentOS7)- 安装Scala和Spark二、启动Hadoop与Spark查看3个节点的进程masterslave1slave2Spark shell命令界面与端口页面三、spark-shell交互式编程请到教程官网的“下载专区”的“数据集”中下载c原创 2021-04-04 16:33:06 · 42508 阅读 · 0 评论 -
Hive查询分析计算:股票分析
Hive查询分析计算案例:股票分析案例需求:本案例是对单支股票一年中每日交易的数据处理,形成K线分析,重点在于前期数据规整处理与导入导出,从数据仓库方案的设计,涉及Hive优化操作,关系型数据库的导入,使用数据可视化方式的直观展示,并对数据进行进一步的分析。解决思路:(1)数据采集与清洗通过爬虫或者金融终端获取股票数据,得到一张excel或者txt的数据,对数据进行初步的清洗整理,最后将数据传输到linux上。(2)数据分析通过语句建立外部表,通过HiveQL语句将数据导入,通过逻辑处原创 2021-03-31 11:41:22 · 42546 阅读 · 1 评论 -
Spark大数据分析与实战:HDFS文件操作
Spark大数据分析与实战:HDFS文件操作一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作Linux基础环境搭建(CentOS7)- 安装HadoopLinux基础环境搭建(CentOS7)- 安装Scala和Spark二、启动Hadoop与Spark查看3个节点的进程masterslave1slave2Spark shell命令界面与端口页面三、HDFS 常用操作(1) 启动Hadoop,在HDFS 中创建用户目录“/use原创 2021-03-23 20:49:30 · 43675 阅读 · 0 评论 -
R语言与数据分析练习:计算特征间的Pearson相似系数
R语言与数据分析练习:计算特征间的Pearson相似系数Pearson相关系数Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。Pearson相关系数简介如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。其计算公式为:题目:原创 2021-03-23 20:24:40 · 47948 阅读 · 1 评论 -
R语言与数据分析练习:K-Means聚类
R语言与数据分析练习:K-Means聚类题目:在篮球运动中,一般情况下,控球后卫与得分后卫的助攻数较多,小前锋的得分数较多,而大前锋与中锋的助攻数与得分数较少。下表为21名篮球运动员每分钟助攻数和每分钟得分数的数据集,请运用K-Means聚类算法将这21名篮球运动员划分为5类,并通过画图判断他们分别属于什么位置。数据如下:assists_per_minute为每分钟助攻次数points_per_minute为每分钟得分数实现代码:# 切换路径,导入数据setwd('D:/bigdata/R原创 2021-03-19 23:47:28 · 36942 阅读 · 8 评论