spark-mllib
文章平均质量分 82
yaoqsm
这个作者很懒,什么都没留下…
展开
-
关于spark中dataframe数据处理
在数据处理中遇到一个问题,当有一个数据集输入,需要将其中一个维度进行处理,该怎么操作,这里拿二值化操作举例,from pyspark import SparkContextfrom pyspark import SQLContextfrom pyspark.ml.feature import Binarizersc=SparkContext()sqlco原创 2017-10-13 11:45:23 · 2709 阅读 · 0 评论 -
spark mllib 的数据预处理
Tokenizer(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。基于python的实现fr原创 2017-10-13 10:06:28 · 1221 阅读 · 0 评论 -
基于spark构建逻辑回归
from __future__ import print_functionfrom pyspark.sql import Rowfrom pyspark.sql import SQLContextfrom pyspark import SparkContextfrom pyspark.ml.classification import LogisticRegressionfrom原创 2017-10-13 15:13:27 · 1263 阅读 · 0 评论