- 博客(7)
- 资源 (12)
- 收藏
- 关注
转载 spark深入:配置文件与日志
一、第一部分1、spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下:<property><name>yarn.log-aggregation-enable</name><value>true</value></proper...
2019-02-27 21:59:30 1034
转载 Watch out for timezones with Sqoop, Hive, Impala and Spark
My head was spinning as I tried to accomplish a simple thing (as it seemed at first). I load data from 3 Oracle databases, located in different time zones, using Sqoop and Parquet. Then I load data to...
2019-02-26 21:34:16 359
转载 JVM内存设置多大合适?Xmx和Xmn如何设置?
问题:新上线一个java服务,或者是RPC或者是WEB站点, 内存的设置该怎么设置呢?设置成多大比较合适,既不浪费内存,又不影响性能呢?分析:依据的原则是根据Java Performance里面的推荐公式来进行设置。具体来讲:Java整个堆大小设置,Xmx 和 Xms设置为老年代存活对象的3-4倍,即FullGC之后的老年代内存占用的3-4倍永久代 PermSize和MaxPe...
2019-02-25 21:27:27 972
转载 sparkSQL自定义聚合函数(UDAF)实现bitmap函数
创建测试表使用phoenix在HBase中创建测试表,字段使用VARBINARY类型CREATE TABLE IF NOT EXISTS test_binary (date VARCHAR NOT NULL,dist_mem VARBINARY CONSTRAINT test_binary_pk PRIMARY KEY (date) ) SALT_BUCKETS=6; 创建完成后使...
2019-02-07 19:50:14 2654
原创 aws的EMR集群常用后台地址
YARN ResourceManager http://master-public-dns-name:8088/YARN NodeManager http://coretask-public-dns-name:8042/Hadoop HDFS NameNode http://master-public-dns-name:50070/Hadoop HDFS DataNode ...
2019-02-07 14:01:59 959
转载 DynamoDB的分区与存储的注意事项
DynamoDB的分区如何计算呢?直接上公式:实际设置的读容量/最大读支持3000 + 实际设置的写容量/最大写支持1000 所得结果想上取整。即:(readCapacityUnits / 3000) + (writeCapacityUnits / 1000) = RoundUp(initPartitions).比如实际设置了1000个读和500个写,那么(1000 / 3000 ...
2019-02-05 17:19:56 528
原创 如何在AWS云上跨VPC使用安全组
1. 安全组的作用?安全组类似于虚拟的防火墙,与网络接口关联,控制一个或多个实例资源的流量访问的策略2.安全组如何使用?安全组是通过对来源+端口(或者是协议)的方式来控制能够访问该实例资源的权限。其中来源主要有用 CIDR 表示法指定一个 IP 地址、CIDR 块或者同VPC内的其他安全组3.跨VPC如何通信?若两个VPC是私有的,则无法直接进行通信的,需要通过VPC peer...
2019-02-05 16:44:07 1867
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人