自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 pyspark---RDD

简单介绍谈到spark大家都可以想到RDD,它是spark必不可少的一部分,在我看来他是spark数据处理的基础之一给大家简单介绍一下吧。RDDRDD又叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能...

2019-07-01 16:30:43 134

翻译 pyspark初步接触

Apache SparkApache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口,用于编程具有隐式数据并行和容错功能的集群。下面是Apache Spark的一些特性,它比其它的大数据框架的优势在于:1、速度:比传统的大型数据处理框架快100倍。2、强大的缓存:简单的编程层提供了强大的缓存和磁盘持久性功能。...

2019-07-01 16:13:48 98

原创 python操作WebHDFS

python操作WebHDFS起因在工作中经常需要使用到hdfs进行文件操作,同时经常有和java做数据交互同时操作hdfs的过程,在这个过程中发现java使用hdfs的方式和python还是有一定差异性的,如路径头部java为hdfs,python为url,于是写下此文档做一个总结备用。WebHDFS API客户端class hdfs.client.Client(url,root = N...

2019-07-01 15:55:57 895

原创 python py文件批量转化成pyc实战

什么是pyc文件pyc是一种二进制文件,是由py文件经过编译后,生成的文件,是一种byte code,py文件变成pyc文件后,加载的速度有所提高,而且pyc是一种跨平台的字节码,是由python的虚拟机来执行的,这个是类似于JAVA或者.NET的虚拟机的概念。为什么需要使用pyc文件py文件是可以直接看到源码的,鉴于代码的保密性,所以就需要编译为pyc后,再发布出去。当然,pyc文件也是...

2019-05-20 12:09:13 1620

原创 决策树小结

决策树决策树是什么?它是一种监督学习算法,主要用于分类问题,适合用于可分类的,连续的输入和输出变量。决策树是这样的一种树,这棵树的每个分支节点表示多个可以选择的选项,并且每个叶节点表示最终所做的决策。决策树的特质之一:他们需要的数据准备工作非常少,特别是完全不需要进行特征缩放和集中。决策树本质就是一颗由多个判断节点组成的树!决策树的生成一. 熵物理学上,熵(Entropy)是混乱程...

2019-05-06 14:49:27 180

原创 Sklearn实现k-近邻算法简介

。图3.3 sklearn.neighbors我们使用sklearn.neighbors.KNeighborsClassifier就可以是实现上小结,我们实现的k-近邻算法。KNeighborsClassifier函数一共有8个参数,如图3.4所示。图3.4 KNeighborsClassifierKNneighborsClassifier参数说明:n_neighbors:默认为5,就是...

2019-05-06 10:24:07 737

转载 pandas初解

Pandas_part011 pandas简介1.1 前置课程numpy与scipynumpy与scipy通常用于处理规范的数据,对于缺失值、数据的类型要求非常严格,然而实际情况下,原始数据通常不是很规范,且存在缺失值,或者数据类型混乱的情况,此时numpy和scipy将不再适用。1.2 pandas的应用Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析...

2019-03-17 21:29:27 2396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除