2019年02月_玉羽凌风

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 spark深入：配置文件与日志

一、第一部分1、spark2.1与hadoop2.7.3集成，spark on yarn模式下，需要对hadoop的配置文件yarn-site.xml增加内容，如下：<property><name>yarn.log-aggregation-enable</name><value>true</value></proper...

2019-02-27 21:59:30 1034

转载 Watch out for timezones with Sqoop, Hive, Impala and Spark

My head was spinning as I tried to accomplish a simple thing (as it seemed at first). I load data from 3 Oracle databases, located in different time zones, using Sqoop and Parquet. Then I load data to...

2019-02-26 21:34:16 359

转载 JVM内存设置多大合适？Xmx和Xmn如何设置？

问题:新上线一个java服务，或者是RPC或者是WEB站点，内存的设置该怎么设置呢？设置成多大比较合适，既不浪费内存，又不影响性能呢？分析：依据的原则是根据Java Performance里面的推荐公式来进行设置。具体来讲：Java整个堆大小设置，Xmx 和 Xms设置为老年代存活对象的3-4倍，即FullGC之后的老年代内存占用的3-4倍永久代 PermSize和MaxPe...

2019-02-25 21:27:27 972

转载 sparkSQL自定义聚合函数（UDAF）实现bitmap函数

创建测试表使用phoenix在HBase中创建测试表，字段使用VARBINARY类型CREATE TABLE IF NOT EXISTS test_binary (date VARCHAR NOT NULL,dist_mem VARBINARY CONSTRAINT test_binary_pk PRIMARY KEY (date) ) SALT_BUCKETS=6; 创建完成后使...

2019-02-07 19:50:14 2654

原创 aws的EMR集群常用后台地址

YARN ResourceManager http://master-public-dns-name:8088/YARN NodeManager http://coretask-public-dns-name:8042/Hadoop HDFS NameNode http://master-public-dns-name:50070/Hadoop HDFS DataNode ...

2019-02-07 14:01:59 959

转载 DynamoDB的分区与存储的注意事项

DynamoDB的分区如何计算呢？直接上公式：实际设置的读容量／最大读支持3000 + 实际设置的写容量／最大写支持1000 所得结果想上取整。即：(readCapacityUnits / 3000) + (writeCapacityUnits / 1000) = RoundUp(initPartitions).比如实际设置了1000个读和500个写，那么(1000 / 3000 ...

2019-02-05 17:19:56 528

原创如何在AWS云上跨VPC使用安全组

1. 安全组的作用?安全组类似于虚拟的防火墙，与网络接口关联，控制一个或多个实例资源的流量访问的策略2.安全组如何使用？安全组是通过对来源+端口（或者是协议）的方式来控制能够访问该实例资源的权限。其中来源主要有用 CIDR 表示法指定一个 IP 地址、CIDR 块或者同VPC内的其他安全组3.跨VPC如何通信？若两个VPC是私有的，则无法直接进行通信的，需要通过VPC peer...

2019-02-05 16:44:07 1867