大数据
大数据相关的初步知识
SongpingWang
计算机视觉相关--程序语言相关
展开
-
Hadoop MapReduce入门
一 入门简介1.1 计算过程分为两个阶段Map 和 Reduce Map 阶段并行处理输入数据 Reduce阶段对Map结果进行汇总 一个简单的 MapReduce 程序只需要指定 map() reduce() input() output() 剩下的由框架完成。1.2 Linux常见命令:- 读取文件...原创 2018-07-23 19:03:50 · 466 阅读 · 0 评论 -
基于Mahout、Spark Mlib实现的推荐系统——算法讲解
一、推荐算法推荐算法组成 推荐算法应用 社交推荐电影推荐 1.1 线性代数里的矩阵分解:1)ALS(Alternating Least Square交替最小二乘法)2)三角分解3) SVD(奇异值)分解4)QR分解5)Jordan分解6)满秩分解Mahout和sparkMLlib里面,就是特指使用 ALS 的一种推荐算法。 1.2 构造一个完整的推...原创 2018-09-22 18:00:08 · 2193 阅读 · 0 评论 -
pyspark_mllib_classifier—(LR)
LogisticRegression 二分类 step1. 构建训练函数 step2. 模型训练 与 评估 step3 不同超参数组合,训练与评估,找到最佳模型 step4 保存模型 加载模型-使用...原创 2018-09-21 22:32:41 · 604 阅读 · 0 评论 -
pyspark_mllib_classifier—(SVM)
SVM 二分类step1. 构建训练函数(DecisionTree)step2. 模型训练 与 评估step3 不同超参数组合,训练与评估,找到最佳模型step4 保存模型 加载模型-使用开发环境 jupyter notebook本项目基于:pyspark_mllib_classifier—(DecisionTree) 处理好的数据集1、创建p...原创 2018-09-21 22:30:49 · 1092 阅读 · 0 评论 -
pyspark_ml_pipeline_DecisionTreeClassifier_RF
目录一、python入门 1.1 python入门基础–数据类型–循环控制–函数–OOP 1.2 python入门——练习题 1.3 python+csv/Excel——练习题 1.4 python爬虫 1.5 python爬虫——练习题二、MySQL 关系型数据库 2.1 MySQL数据库 2.2 pyMySQL操作...原创 2018-08-20 09:13:37 · 2054 阅读 · 0 评论 -
创建 spark_session 读取数据-加入缓存-并使用SQL语句分析
1 创建 spark_session 读取数据-加入缓存2 SparkSQL数据分析(DSL,SQL)1 创建 spark_session 读取数据-加入缓存#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport timefrom pyspark.sql import Spark...原创 2018-09-21 21:04:14 · 1975 阅读 · 0 评论 -
大数据Hive集成python分析框架—搜狗实验室(用户查询日志)—电影评分分析
一、Spark 大数据分析框架1.1 数据结构1.2 SQL语句简介二、搜狗实验室(用户查询日志)数据分析2.1获取数据集并初步分析:2.2 创建数据库/表——导入数据分析三、电影评分分析3.1 数据集 样本分析在Hive中使用CTAS方式创建临时结果表–方便后续分析使用Python脚本处理Hive表中数据一、Spar...原创 2018-07-26 19:26:57 · 2047 阅读 · 1 评论 -
ALS推荐算法—训练并保存—加载并测试
一、读取数据—清洗数据训练并保存二、加载模型—预测一、读取数据—清洗数据训练并保存import osfrom pyspark import SparkContext,SparkConffrom pyspark.mllib.recommendation import ALS,Ratingdef create_spark_context(): ...原创 2018-09-21 21:50:08 · 4455 阅读 · 2 评论 -
基于PySpark的航天日志分析(SQL分析)
1、导入PySpark包2、创建SparkSession实例对象3、读取数据(Schema()信息)读取数据方法1读取数据方法24、查看DataFrame数据信息(显示完整【列名】不省略)6、SparkSQL模块中,结构化数据分析:DSL和sQL(filter)7、分组聚合(groupBy Rename)8、可视化展示(SparkSQL中DataFrame转...原创 2018-09-21 21:18:50 · 1076 阅读 · 1 评论 -
pyspark—WordCount代码
pyspark入门 #!/usr/bin/env python# -*- coding: utf-8 -*-import osimport timefrom pyspark import SparkContext, SparkConfif __name__ == "__main__": #设置环境变量 os.environ['JAVA_HOME'] = 'C:...原创 2018-09-21 21:06:24 · 2403 阅读 · 0 评论 -
Hadoop+python入门集成测试代码
一 词频统计WordCount(类似TF)属于大数据框架中 最经典的案例: 统计文件中每个单词出现的个数1.1、准备数据将要分析的数据存储到HDFS文件系统中命令: # 创建目录$ hdfs dfs -mkdir -p /user/cloudera/wordcount/input # 上传数据文件$ hdfs dfs -put /home/clou...原创 2018-09-21 21:24:20 · 772 阅读 · 0 评论 -
pyspark_mllib_regression
1. 创建spark-sessionimport osimport timefrom pyspark import SparkConf, SparkContext# 设置环境变量os.environ['JAVA_HOME'] = 'C:\Java\jdk1.8.0_91'# HADOOP在Windows的兼容性问题 主要需要$HADOOP_HOME/lib中winutils.e...原创 2019-06-25 17:30:53 · 416 阅读 · 0 评论