自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

博客

博客

  • 博客(20)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

转载 windows解决pycharm 使用远程调试功能时matplotlib plot出的图片无法查看问题

解决方法主要来自stackoverflow: python-plotting-on-remote-server-using-pycharm remote-debugging-with-pycharm-unable-plot-figure-on-local-machine Ok, after some more googling I finally managed to get this...

2018-07-06 10:46:00 4285 1

转载 转载删减:Jupyter Notebook快捷键

Jupyter Notebook 的快捷键命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Y : 单元转入代码状态 M :单元转入markdown状态 R : 单元转入raw状态 1 : 设定 1 级标题 2 : 设定 2 级标题 3 : 设定 3 级标题 4 : 设定 4 级标题 5 : 设定 5 级标题 6 : 设定 6 级标题 K : 选中上方单元 J

2018-03-19 22:02:43 2284

原创 Scala 注意事项:object的apply方法

Scala注意事项:object的apply方法

2018-03-19 20:43:56 2855

原创 从功能看语言(一):数组

定长数组(1)创建(指定长度) (2)创建并初始化 (3)遍历定长数组C++11 #include <string> using std::string; int arr[10]; string str[] = {"abc","bcd","cde","def","efg"}; for(auto c:str){

2018-02-13 21:20:37 309

转载 pyspark 读取csv文件创建DataFrame

两种从csv创建DataFrame的方法

2018-01-12 14:24:39 19114 1

原创 Spark

列举Spark的特点描绘Spark Stack的层次图说明Spark Stack各组件的功能描述Spark如何使用RDD抽象概念进行内存处理说明Spark结构的内部工作总结Spark如何管理和执行集群上的代码Spark支持丰富的编程模型,支持在内存处理和存储数据,支持批处理和流处理、支持使用python、java、scala、SQL调用库完成数据分析工作。 Spark由下图五个部分

2018-01-10 21:31:30 705

原创 YARN

YARN是Hadoop的资源管理器。理解YARN如何为Hadoop集群提供灵活的资源管理理解YARN如何拓展Hadoop使得能够支持多种框架如MapReduce、Spark、Giraph和FlinkYARN是Hadoop从1.0升级至2.0出现的,hadoop1.0只支持MapReduce任务、资源利用率低。如图,Hadoop2.0中加入YARN使得hadoop中的编程模型有了除M

2018-01-10 21:28:27 5976

原创 HDFS

HDFSHadoop Distributed File System(HDFS)是大数据的存储系统。理解HDFS如何实现存储的可扩展性(scalability)和可靠性(reliability)区分HDFS的两个关键组件:namenode和datanode为了并行访问,HDFS将文件分割若干部分,并分散地存储在多个节点上。 如下图中的文件被分割成abcd四个块(chun

2018-01-10 21:25:26 291

原创 Spark Core :RDD与Spark流水线编程模型

学会使用Spark中创建RDD的两种方法列出创建Spark程序的步骤结合本文内容解释“不可变性”能将Spark程序翻译成“变换”和“行为”的流水线RDD的创建方法Driver Program 是Spark程序的起点,它把RDD分发到集群并保证RDD的转化和动作的执行。Driver Program 中包含一个Spark Context,而每个Work Node中包含一个Spark Exe

2018-01-10 10:08:09 950

原创 Spark Core : Transformations 和 Actions

map flatmap filter coalesce groupByKey() reduceByKey() collect() take(n) reduce(func) reduce(func)

2018-01-10 10:06:03 369

原创 大数据处理流水线

大数据处理流水线:一种数据流方法看完本文,不妨回头看看这些要求都做到了吗:理解数据流及其在数据科学中扮演的角色用实例解释‘split-do-merge’,一种大数据流水线给出‘data parallel’的定义列举大数据流水线中常见的变换列举常见聚集函数流水线概念大多数大数据应用是由一组陆续执行的操作组成的,这组操作成为流水线。数据沿途经过多种转化,在这些操作间

2018-01-05 16:16:38 4308 2

转载 有意义的命名

选个好名字需要花时间,但省下的时间更多。一旦发现有更好的名字,就换掉旧的。名副其实名称应该已经答复了所有的大问题,如它为什么会存在,它做什么,怎么用。尽量让名字不需要注释来补充解释说明。例1public Listint[]> getThem(){ Listint[]> list1 = new ArrayListint[]>(); for

2018-01-05 14:12:00 424

转载 整洁代码

告知项目经理自己的想法多数经理想要知道实情,即便他们看起来不喜欢实情。多数经理想要好代码,即便他们总是痴缠于进度。医生按照病人说的办,就是一种不专业的态度;程序员遵循不了解混乱风险的经理的意愿,也是一种不专业的做法。整洁代码的内涵糟糕的代码引发混乱,别人修改糟糕的代码,往往越改越烂。每个函数、每个类、每个模块只做好一件事。  整洁的代码可由作

2018-01-05 14:10:09 207

转载 软件系统复杂性(1/2)

1.1节介绍物理世界复杂系统实例(个人计算机、动植物、物质、社会机构)。1.2节讨论软件系统的复杂性,可以说软件系统比自然界的复杂性还要高,并讨论了导致软件系统复杂的四大原因。1.3节总结了复杂系统的5大属性,读者可以结合1.1节中直观的实例对其进行思考与理解。摘录:  某些软件系统并不复杂,这些大多是可以被遗忘的应用,他们是由一个人提出、构建、维护和使用的。这些系统的目的通常很有

2018-01-05 14:07:25 2372

原创 MapReduce:Hadoop生态的一种简单编程模型

看完本文后,不妨回头看看这些目标都做到了吗?理解MapReduce如何简化并行程序的创建理解 WordCount应用程序如何使用MapReduce编程模型了解MapReduce编程模型之有所能有所不能并行编程通常需要线程、锁、信号量等复杂的专业知识,而MapReduce中只有Map和Reduce。MapReduce基于函数式编程的思想,类似于f(x)=y。Map是将一个操作应用于所有的

2018-01-04 11:23:39 645

原创 大数据基础理论和hadoop生态简介

简介分布式文件系统、集群、大数据编程模型等大数据基础理论简介hadoop生态中的各组件功能

2017-12-31 20:53:51 370

转载 docker使用方法

查询docker镜像docker search 镜像名下载docker镜像docker pull 镜像名下载后默认是放到了:/var/lib/docker查看已下载的docker镜像docker images运行docker容器docker run 镜像名查看正在运行的docker容器docker ps停止正在运行的容器doc

2017-12-23 14:41:28 369

原创 阿里云服务器安装配置Hadoop2.7.5+Spark2.2.1伪分布式环境

安装准备:1.安装配置java1.8.0_141环境2.增加master节点地址映射vim /etc/profile追加如下内容:127.0.0.1 master127.0.0.1 iZuf6hxhy307mpxxtvmtb3Z iZuf6hxhy307mpxxtvmtb3Z 是我的阿里云服务器的主机名,防止出现异常:SHUTDOWN_M

2017-12-23 14:35:04 1070

原创 numpy创建矩阵常用方法

arange linspace reshape resize ones zeros random.randint hstack vstack

2017-12-14 20:26:01 112804 7

原创 重视理论

对理论有较深的理解,我们学东西就可以很快,这种抽象的事物具有迁移性。

2017-04-28 08:53:20 265

java2程序设计基础 PPT

这份资料在各网站零零散散,经本人搜集整理打包分享给大家。

2015-10-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除