- 博客(6)
- 收藏
- 关注
原创 Spark--聚类应用
大数据之聚类应用Spark ML库Spark 机器学习库提供了包括聚类,分类,回归,协同过滤,维度约简等。使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通常只需要在对原始数据进行处理后,然后直接调用相应的 API 就可以实现。Spark ML 提供了一个基于 DataFrame 的机器学习工作流式API 套件,使用 ML Pipeline API,我们可以很方便的...
2019-04-03 17:32:11 500
原创 数据可视化
数据可视化Echarts的本地使用(1)首先在官网上下载 echart.js(2)将本地echart.js的路径引入 html文件(3)构建容器(4)绘制图表Djando安装Djangopip install django创建一个项目django-admin.py startproject ui创建一个应用hadoop@master:~/ui$ lsmanag...
2019-03-27 22:13:23 198
原创 数据采集
数据采集flume在大数据中的应用Flume应用案例:采集网络数据vi example1.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = netcata1....
2019-03-27 16:37:40 173
原创 数据处理
数据处理IntelliJ IDEA 创建 scala 项目打包 jar包,上传服务器Project Structure----Artifacts3. :删除除了项目输出以外的所有包4. 检查是否创建成功有MANIFEST.MF则说明创建成功5. 生成jar包Build – build artifacts—Build6. 查看生成的jar包7. 启动spark8...
2019-03-27 11:32:06 115
原创 Ubuntu安装组件
Ubuntu 安装java解压为文件夹赋权sudo chown -R hadoop:hadoop /bigdata移动解压后的文件mv jdk1.8.0_201 /bigdata/,在移动之前应该先建文件夹bigdata,否则会出现只移动文件的情况进入到bigdata目录,echo export JAVA_HOME=/bigdata/jdk1.8.0_201 >&g...
2019-03-05 03:08:45 897
原创 Ubuntu(master-slave)搭建
**Ubuntu集群环境搭建**VMware workstation新建虚拟机安装openssh-server 开启远程访问克隆虚拟机MobaXterm修改主机名字,免密登录,下载相关工具VMware workstation新建虚拟机使用iso镜像,在安装时选择立即分配磁盘空间,参数配置如下图所示。安装openssh-server 开启远程访问sudo apt install ope...
2019-02-26 16:56:41 711
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人