python,笔记
文章平均质量分 58
wyfly69
这个作者很懒,什么都没留下…
展开
-
Linux
第一个符号之后的所有符号都表示的是与权限相关的信息每三位一组rwx 表示拥有者的权限--- 表示组的权限---. 表示其它人或组的权限每一组里的三个字符的意义第一个表示读 r 4第二个表示写 w 2第三个表示执行 x 1修改权限时:chmod num1num2num3 三个数字对应着拥有者、组、其他人或组,0是没任何权限、4只读、2只写、1只进入,三种权限叠加就把对应的...原创 2018-03-22 19:22:27 · 136 阅读 · 0 评论 -
spark数据分析(3)
combineByKey(createCombiner,mergeValue,mergeCombiners) createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, combineByKey() 会使用一个叫作 createCombiner() 的函数来创建 那个键对应的...原创 2018-04-08 22:47:00 · 482 阅读 · 0 评论 -
spark数据分析
首先要运行spark,加载 py4j,执行shell.py 初始化 spark sc(SparkContext)编写处理rdd的代码代码分两类一类叫driver的代码 driver只有一个一类叫worker的代码 worker有多个 worker的代码有两类算子(操作operate) 变换 transformation 懒执行 map flatMap groupByKey reduceByK...原创 2018-04-01 20:49:42 · 1067 阅读 · 0 评论 -
hadoop(单机伪分布式) pyspark(Anaconda)
学习Hadoop前的准备工作:1.网络 主机名称 主机映射目前是动态IP,所以需要配置IP地址为静态IP/etc/sysconfig/network-scripts ll | grep ifcfg-ens33可查看此文件的权限,只能在root下更改vi ifcfg-ens33:BOOTPROTO=dhcp改为 BOOTPROTO=staticONBOOT=yes添加四行代码:IPADDR=192....原创 2018-03-27 21:10:45 · 843 阅读 · 0 评论 -
spark数据分析(2)
首先来理解(0,0)这个初始值:说明aggregate()方法会返回一个元组,而因为是分布式集群来进行分析,所以第一个lambda表达式是每个worker所执行的,比如我们有三个worker,那么他们得到的结果分别是:(14,2);(8,2);(14,2)。而第二个lambda表达式则是driver把那三个worker的结果进行汇总计算,得到(36,6)这一结果而在现实生产中,我们需要尽可能的去利...原创 2018-04-03 22:31:57 · 227 阅读 · 0 评论 -
Spark SQL入门用法与原理分析
sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁一. APISpark SQL的API方案:3种SQLthe DataFrames APIthe Datasets API.但会使用同一个执行引擎the same execution engine is u...转载 2018-04-22 18:36:49 · 273 阅读 · 0 评论 -
Spark SQL 和 DataFrames
Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源,支持 Hive、Avro、Parquet、ORC、JSON、和 JDBC,并且可以在多种数据源之间执行 join 操作。Spark SQL之所以...原创 2018-04-22 18:56:12 · 219 阅读 · 0 评论 -
hive简单数据分析实验
将一个英文的短篇小说Alice上传到hdfs上,计算每个单词出现的次数查看文件,只显示5条(line);把每个单词分开,因为段落是用空行分割,所用使用条件去除,只显示5条;...原创 2018-04-22 20:17:08 · 631 阅读 · 0 评论