spark
谦芊珺
这个作者很懒,什么都没留下…
展开
-
Spark学习(一)基础数据预处理
本文写在进行spark学习的过程中,学习过程主要参考 http://blog.csdn.net/u013719780/article/details/517687201、导包from pyspark import SparkContext 2、提交脚本 spark-submit pythonapp.py 3、导入数据user_data = sc.textFile('/路径/ml-100k/u.us原创 2017-07-28 00:30:47 · 3721 阅读 · 0 评论 -
特征提取
特征类型:数值型、类型型、文本型原创 2017-07-28 10:54:25 · 563 阅读 · 0 评论 -
MLlib
1、归一化from pyspark.mllib.feature import Normalizer normlizer = Normalizer() vector = sc.parallelize([x]) normalized_x_mllib = normlizer.transform(vector).first().toArray()原创 2017-07-28 10:59:02 · 468 阅读 · 0 评论 -
推荐系统
参考:http://www.cnblogs.com/pinard/p/6364932.html 参考:http://blog.csdn.net/u013719780/article/details/517750471、导入数据rawData = sc.textFile("/Users/youwei.tan/ml-100k/u.data") 2、拆成字段rawRatings = rawData.ma原创 2017-07-28 11:21:19 · 397 阅读 · 0 评论