- 博客(20)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
转载 windows解决pycharm 使用远程调试功能时matplotlib plot出的图片无法查看问题
解决方法主要来自stackoverflow: python-plotting-on-remote-server-using-pycharm remote-debugging-with-pycharm-unable-plot-figure-on-local-machine Ok, after some more googling I finally managed to get this...
2018-07-06 10:46:00 4285 1
转载 转载删减:Jupyter Notebook快捷键
Jupyter Notebook 的快捷键命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Y : 单元转入代码状态 M :单元转入markdown状态 R : 单元转入raw状态 1 : 设定 1 级标题 2 : 设定 2 级标题 3 : 设定 3 级标题 4 : 设定 4 级标题 5 : 设定 5 级标题 6 : 设定 6 级标题 K : 选中上方单元 J
2018-03-19 22:02:43 2284
原创 从功能看语言(一):数组
定长数组(1)创建(指定长度) (2)创建并初始化 (3)遍历定长数组C++11 #include <string> using std::string; int arr[10]; string str[] = {"abc","bcd","cde","def","efg"}; for(auto c:str){
2018-02-13 21:20:37 309
原创 Spark
列举Spark的特点描绘Spark Stack的层次图说明Spark Stack各组件的功能描述Spark如何使用RDD抽象概念进行内存处理说明Spark结构的内部工作总结Spark如何管理和执行集群上的代码Spark支持丰富的编程模型,支持在内存处理和存储数据,支持批处理和流处理、支持使用python、java、scala、SQL调用库完成数据分析工作。 Spark由下图五个部分
2018-01-10 21:31:30 705
原创 YARN
YARN是Hadoop的资源管理器。理解YARN如何为Hadoop集群提供灵活的资源管理理解YARN如何拓展Hadoop使得能够支持多种框架如MapReduce、Spark、Giraph和FlinkYARN是Hadoop从1.0升级至2.0出现的,hadoop1.0只支持MapReduce任务、资源利用率低。如图,Hadoop2.0中加入YARN使得hadoop中的编程模型有了除M
2018-01-10 21:28:27 5976
原创 HDFS
HDFSHadoop Distributed File System(HDFS)是大数据的存储系统。理解HDFS如何实现存储的可扩展性(scalability)和可靠性(reliability)区分HDFS的两个关键组件:namenode和datanode为了并行访问,HDFS将文件分割若干部分,并分散地存储在多个节点上。 如下图中的文件被分割成abcd四个块(chun
2018-01-10 21:25:26 291
原创 Spark Core :RDD与Spark流水线编程模型
学会使用Spark中创建RDD的两种方法列出创建Spark程序的步骤结合本文内容解释“不可变性”能将Spark程序翻译成“变换”和“行为”的流水线RDD的创建方法Driver Program 是Spark程序的起点,它把RDD分发到集群并保证RDD的转化和动作的执行。Driver Program 中包含一个Spark Context,而每个Work Node中包含一个Spark Exe
2018-01-10 10:08:09 950
原创 Spark Core : Transformations 和 Actions
map flatmap filter coalesce groupByKey() reduceByKey() collect() take(n) reduce(func) reduce(func)
2018-01-10 10:06:03 369
原创 大数据处理流水线
大数据处理流水线:一种数据流方法看完本文,不妨回头看看这些要求都做到了吗:理解数据流及其在数据科学中扮演的角色用实例解释‘split-do-merge’,一种大数据流水线给出‘data parallel’的定义列举大数据流水线中常见的变换列举常见聚集函数流水线概念大多数大数据应用是由一组陆续执行的操作组成的,这组操作成为流水线。数据沿途经过多种转化,在这些操作间
2018-01-05 16:16:38 4308 2
转载 有意义的命名
选个好名字需要花时间,但省下的时间更多。一旦发现有更好的名字,就换掉旧的。名副其实名称应该已经答复了所有的大问题,如它为什么会存在,它做什么,怎么用。尽量让名字不需要注释来补充解释说明。例1public Listint[]> getThem(){ Listint[]> list1 = new ArrayListint[]>(); for
2018-01-05 14:12:00 424
转载 整洁代码
告知项目经理自己的想法多数经理想要知道实情,即便他们看起来不喜欢实情。多数经理想要好代码,即便他们总是痴缠于进度。医生按照病人说的办,就是一种不专业的态度;程序员遵循不了解混乱风险的经理的意愿,也是一种不专业的做法。整洁代码的内涵糟糕的代码引发混乱,别人修改糟糕的代码,往往越改越烂。每个函数、每个类、每个模块只做好一件事。 整洁的代码可由作
2018-01-05 14:10:09 207
转载 软件系统复杂性(1/2)
1.1节介绍物理世界复杂系统实例(个人计算机、动植物、物质、社会机构)。1.2节讨论软件系统的复杂性,可以说软件系统比自然界的复杂性还要高,并讨论了导致软件系统复杂的四大原因。1.3节总结了复杂系统的5大属性,读者可以结合1.1节中直观的实例对其进行思考与理解。摘录: 某些软件系统并不复杂,这些大多是可以被遗忘的应用,他们是由一个人提出、构建、维护和使用的。这些系统的目的通常很有
2018-01-05 14:07:25 2372
原创 MapReduce:Hadoop生态的一种简单编程模型
看完本文后,不妨回头看看这些目标都做到了吗?理解MapReduce如何简化并行程序的创建理解 WordCount应用程序如何使用MapReduce编程模型了解MapReduce编程模型之有所能有所不能并行编程通常需要线程、锁、信号量等复杂的专业知识,而MapReduce中只有Map和Reduce。MapReduce基于函数式编程的思想,类似于f(x)=y。Map是将一个操作应用于所有的
2018-01-04 11:23:39 645
转载 docker使用方法
查询docker镜像docker search 镜像名下载docker镜像docker pull 镜像名下载后默认是放到了:/var/lib/docker查看已下载的docker镜像docker images运行docker容器docker run 镜像名查看正在运行的docker容器docker ps停止正在运行的容器doc
2017-12-23 14:41:28 369
原创 阿里云服务器安装配置Hadoop2.7.5+Spark2.2.1伪分布式环境
安装准备:1.安装配置java1.8.0_141环境2.增加master节点地址映射vim /etc/profile追加如下内容:127.0.0.1 master127.0.0.1 iZuf6hxhy307mpxxtvmtb3Z iZuf6hxhy307mpxxtvmtb3Z 是我的阿里云服务器的主机名,防止出现异常:SHUTDOWN_M
2017-12-23 14:35:04 1070
原创 numpy创建矩阵常用方法
arange linspace reshape resize ones zeros random.randint hstack vstack
2017-12-14 20:26:01 112804 7
linux 下为什么不用IDE编程?
2015-06-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人