Spark
Yaphat
这个作者很懒,什么都没留下…
展开
-
SparkR
SparkR提供了轻量级的方式在R中使用Spark,SparkR实现了分布式的dataframe,支持类似查询,过滤和聚合等,(类似R中data frames : dplyr),这个可以操作大规模的数据集。SparkR DataFramesStarting Up: SparkContext, SQLContextSparkR的切入点是SparkContext,它可以连接R和Spark集群,通过Spa原创 2016-11-10 16:31:22 · 2352 阅读 · 0 评论 -
Spark安装配置
Spark是什么Apache Spark是一个新兴的大处理处理通用引擎,提供了分布式的内存抽象,适用于包括批处理、迭代算法、交互式查询、流处理等场景。spark扩展了广泛使用的MapReduce计算模型,而且高效的支持更多计算模式。Spark的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark也比MapReduce更加高效。安装Spark官网下载地址,选原创 2016-11-16 16:30:28 · 4350 阅读 · 0 评论 -
German Credit Risk(德国信用卡违约分析)
数据信息先看下数据格式: 总共有20个属性,1个类别特征。信息如下:Attribute 1: (qualitative) Status of existing checking account A11 : … < 0 DM A12 : 0 <= … < 200 DM A13 : … >= 200 DM / salary assignments for at least 1 year原创 2017-03-29 22:44:46 · 10748 阅读 · 4 评论 -
Spark MLlib Python Notebook配置
在Spark上使用pySpark shell很麻烦,只能在命令行中输入。除了可以用spark submit提交应用外,也可以用jupter notebook。运行ipython打开notebook$ jupyter notebook初始化 pysparkimport osexecfile(os.path.join(os.environ["SPARK_HOME"], 'python/pyspark/原创 2017-03-29 14:48:27 · 1370 阅读 · 0 评论 -
Credit Card Fraud Detection(信用卡诈欺侦测)Spark建模
数据格式这个数据来自2013年9月欧洲信用卡交易数据,总共包括两天的交易数据。在284,807次交易中发现了492例诈骗。数据集极其不平衡,诈骗频率只占了交易频次的0.172%。 这个数据因为涉及敏感信息,用PCA处理过了,V1,V2,…V28是主成分,‘Time’和‘Amount’是没有经过PCA处理的。‘Time’是每次交易与第一次交易之间距离的时间,以秒计。‘Amount’代表消费金额,‘C原创 2017-04-02 16:14:43 · 8327 阅读 · 5 评论