AWS
玉羽凌风
这个作者很懒,什么都没留下…
展开
-
EMR指定私有IP新建机器
从上一篇对Hive metastore表结构的简要分析中,我再根据数据设计的实体对象,再进行整个代码结构的总结。那么我们先打开metadata的目录,其目录结构: 可以看到,整个hivemeta的目录包含metastore(客户端与服务端调用逻辑)、events(事件目录包含table生命周期中的检查、权限认证等listener实现)、hooks(这里的hooks仅包含了jdo conne...转载 2021-08-03 14:37:51 · 407 阅读 · 0 评论 -
Exception in thread “main“ com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400
1.确保代码里有对应的spark set 认证信息spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "your endpoint")spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", "your accessKeyId")spark.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key",原创 2021-04-01 22:32:24 · 2195 阅读 · 0 评论 -
使 Amazon EBS 卷可在 Linux 上使用
将某个 Amazon EBS 卷附加到您的实例后,该卷将显示为块储存设备您可以使用任何文件系统将卷格式化,然后进行挂载。在使 EBS 卷可供使用后,您可以像访问其他所有卷一样访问该卷。任何写入此文件系统的数据均写入 EBS 卷,并且对使用该设备的应用程序是透明的。您可以制作 EBS 卷的快照以进行备份或在您创建其他卷时作为基准。有关更多信息,请参阅Amazon EBS 快照。您可以从Amazon EC2 用户指南(适用于 Windows 实例)中的使卷可在 Windows 上使用,获得有关 Wi..转载 2020-09-06 13:51:57 · 225 阅读 · 0 评论 -
AWS的RDS开启慢查询日志到cloudwatch中
在AWS的RDS中开启慢查询并能够直接在提控制台提供的Cloudwatch里查询的到信息需要满足以下几点:slow_query_log:要创建慢速查询日志,请设置为 1。默认值为 0general_log:要创建常规日志,请设置为 1。默认值为 0。long_query_time:要防止在慢速查询日志中记录快速运行的查询,请指定需要记录的最短查询运行时间值,以秒为单位。默认值为 10 秒;最小值为 0。如果 log_output = FILE,则可以指定精确到微秒的浮点值。如果 log_out.原创 2020-08-11 23:22:15 · 2387 阅读 · 0 评论 -
EMR 上的 Spark 或 Hive 作业失败并出现 HTTP 503 “Slow Down” AmazonS3Exception
问题现象java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Slow Down (Service: Amazon S3; Status Code: 503; Error Code: 503 Slow Down; Request ID...转载 2020-04-24 09:39:20 · 999 阅读 · 0 评论 -
Amazon AWS 中国区的那些"坑"
使用AWS 中国区有一段时间了, 期间踩过了一些坑. 简单写一下, 希望对别人有帮助.** 文中一些主观猜测或者AWS 后续升级, 如有误导, 敬请见谅.Amazon S3所有坑中, 最数 S3 坑多. 原因很简单: EC2的服务大不了大家在web console 里面点击鼠标, S3 更多时候肯定是用SDK访问. 因此SDK的各种问题都会提前暴露.hadoop over S3...转载 2020-03-26 13:35:19 · 7737 阅读 · 0 评论 -
修改aws emr系统datanode的ulimit值
1.hadoop用户登录到EMR集群的core节点2.执行sudo su命令切换到root用户3. 执行 echo ' * - nofile 65535' >> /etc/security/limits.conf4. reboot5.重新登录到hadoop用户,执行unlimit -n查看值是否生效6.执行sudo stop hadoop-hdfs-datanode...原创 2020-02-05 19:44:56 · 576 阅读 · 3 评论 -
Using a single hive warehouse for all EMR(Hadoop) clusters
s the EMR/Hadoop cluster’s are transient, tracking all those databases and tables across clusters may be difficult. So, Instead of having different warehouse directories across clusters, You can use a...转载 2020-02-04 23:44:33 · 186 阅读 · 0 评论 -
hive server 2 crashing with OutOfMemoryError (OOM) ?
ften times HiveServer2 can be single point of failure. It can easy crash with OOM. If HiveServer2 restarts now-and-then , it must be due to OOM where it is likely set to be killed and re-spawned. We n...转载 2020-02-04 23:41:18 · 2704 阅读 · 0 评论 -
Getting stack trace/Heap dump of a process in EMR
In latest EMR AMI’s , Different Applications like Hive and Hadoop are installed with corresponding Unix USERS.Example :Hive-server2process in run withhiveuser.To check the stack trace or heap ...转载 2020-02-04 23:31:51 · 279 阅读 · 0 评论 -
ENABLING DEBUG LOGGING – EMR MASTER GUIDE
Contains different configurations and procedures to enable logging on different daemons on AWS EMR cluster.[Please contribute to this article to add additional ways to enable logging]HBASE on S3 :...转载 2020-02-04 23:30:56 · 451 阅读 · 0 评论 -
Common issues of disk going full on EMR Cluster (or In general any Hadoop / Spark cluster)
A disk going full can make YARN on EMR UNHEALTHY. So, customer’s need to identify and proactively predict why each Application like Hadoop / Spark can occupy disk space and act accordingly. This Artic...转载 2020-02-04 23:14:59 · 1904 阅读 · 0 评论 -
Spark UI vs. Spark History Server UI
Is Job Running ?1. If you have Spark Applications Running, then you should be using SPARK UI. This UI is usually hosted on Spark Driver– In YARN cluster mode, the Driver is run on YARN Application...转载 2020-02-04 22:56:43 · 259 阅读 · 0 评论 -
EMR vCPU vCore issue
Several customer confuse when they see vCore’s used by EMR is different from what Ec2 vCPU’s. This article will clarify why EMR had to use vCore’s and some problems that exist with Instance Fleets and...转载 2020-02-04 22:45:52 · 455 阅读 · 0 评论 -
aws s3 并发上传文件
1. OverviewIn this tutorial, we'll see how to handle multipart uploads in Amazon S3 with AWS Java SDK.Simply put, in a multipart upload, we split the content into smaller parts and upload each part...转载 2019-11-10 17:23:19 · 3315 阅读 · 0 评论 -
执行aws cli报ImportError: cannot import name 'AliasedEventEmitter' 错误
解决方案:1. sudo aws installawscli2.如果1 不成功后,直接执行以下步骤:sudopython -m pip install --upgrade pipsudopip uninstall awsclisudopip install awscli原创 2019-10-24 22:42:45 · 850 阅读 · 0 评论 -
分布式 Lambda 从海外到中国自动同步S3文件
现在,越来越多的中国公司,在AWS海外区域部署业务。利用 S3 作为数据湖,存储海量的数据,包括图片、视频、日志、备份等等。很多场景下,需要把海外的 S3 数据复制到中国,在中国进行进一步分析处理。AWS S3 在海外提供跨区域自动复制功能 (Cross region replication, CRR) 。但是,由于中国和海外区域隔离,不能使用CRR功能。一个简单的命令行,调用不同的 pro...转载 2019-10-15 16:04:52 · 1051 阅读 · 0 评论 -
7 hidden AWS costs that could be killing your budget
The AWS Elastic Compute Cloud (EC2) service has many advantages, including easy scalability, pay-for-what-you-use, as-you-go pricing, and an enormous array of options and upgrades – so many that your ...转载 2019-09-22 21:26:00 · 157 阅读 · 0 评论 -
aws dynamodb query with or condition
ItemCollection<QueryOutcome> items = null; QuerySpec querySpec = new QuerySpec(); ValueMap valueMap = new ValueMap(); valueMap.withString(":autoIdVal", autoID); ...原创 2018-09-30 12:06:00 · 963 阅读 · 0 评论 -
spark本地读取写入s3文件
1.关于S3,S3N和S3A的区别与联系(wiki:https://wiki.apache.org/hadoop/AmazonS3)S3 Native FileSystem (URI scheme: s3n) A native filesystem for reading and writing regular files on S3. The advantage of this filesy原创 2017-08-28 11:35:10 · 10778 阅读 · 5 评论 -
aws s3跨区复制文件
1. 使用aws s3提供的自带复制功能可实时同步S3数据,点击bucket的属性,在操作里有复制 选项功能,需要注意的是填写前缀的时候一定要以/结尾,否则不生效2.通过aws cli 批量复制aws s3 cp s3://mybucket-1/data_file/analytics_log_info/test/tp=app/day=2019-07-04/ s3://mybucket-...原创 2019-07-17 21:37:42 · 2201 阅读 · 0 评论 -
aws emr服务重启
AWS常用的集群管理服务有:hadoop-yarn-resourcemanagerooziehadoop-hdfs-namenodehive-hcatalog-serverhadoop-mapreduce-historyserverhuehadoop-kmshadoop-yarn-proxyserverhadoop-httpfshive-server2h...原创 2019-01-03 17:00:00 · 3286 阅读 · 0 评论 -
AWS系列之三 使用EBS
Amazon Elastic Block Store(EBS)可作为EC2实例的持久性数据块级存储。其具有高可用性和持久性的特点,可用性高达99.999%。给现有的EC2实例扩展新的存储块只需要几分钟的时间,省时省力。每个EBS块都被放置在一个特定的可用区内,并且会自动维护一个副本,随时保护数据安全。Amazon EBS共提供三种硬盘类型,SSD(固态硬盘), Provisioned IOPS...转载 2019-04-19 11:13:13 · 2965 阅读 · 0 评论 -
windows环境下java本地连接aws开发
1.首先需要参照本博客地址windows 安装aws cli 安装好aws cli,确保在dos命令行可以正常使用aws命令,正确安装好后会在当前用户目录下.aws文件夹下对应的密钥信息2.java连接(勿用id,secret模式验证,我自己测试没有成功,不知道什么原因,可直接参照代码进行连接) static AmazonS3 s3; static Transfe原创 2017-02-20 16:23:20 · 2762 阅读 · 0 评论 -
spark 判断s3路径是否存在
val sc = new SparkContext(new SparkConf().setAppName("AppName"))sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "ACCESS_KEY")sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "SECRET_ACC原创 2017-03-13 11:54:52 · 5717 阅读 · 0 评论 -
spark streaming job 耗时监控
在写spark streaming job时,有时候我们需要对job信息进行监控,比如监控当前streaming job的每个batch的process time和delay time等,当然通过spark提供的管理后台(默认4040端口)可以查看job的详情,但是并不太方便,我们可以将信息全部输出到自定义的metrics里,然后进一步统计。实现代码如下: JavaStreami原创 2017-06-30 09:24:37 · 1630 阅读 · 0 评论 -
Map operator initialization failed at org.apache.hadoop.hive.ql.exec.tez.TezProcessor
在hive 执行与dyanmodb相关的操作时,遇到了下面错误Status: FailedVertex failed, vertexName=Map 1, vertexId=vertex_1481976368061_0022_1_00, diagnostics=[Task failed, taskId=task_1481976368061_0022_1_00_000000, diagnost原创 2017-08-10 15:12:59 · 4181 阅读 · 0 评论 -
AWS kinesis常用CLI命令
1.创建stream aws kinesis create-stream --stream-name Foo --shard-count 12.删除streamaws kinesis delete-stream --stream-name Foo3.删除kinesie对应的ddb表aws dynamodb delete-table --table-name Foo原创 2017-08-24 14:40:36 · 1282 阅读 · 0 评论 -
dynamodb:tried to access class com.amazonaws.services.dynamodbv2.document.internal.IteratorSupport
查询dynamodb表数据:val tableName = "mytable" val table = new Table(DynamoDBClientUtil.getDynamoDBClient, tableName) val conditionAllQuery = new StringBuilder() .append("record_key").append原创 2017-09-16 22:25:33 · 615 阅读 · 0 评论 -
Query DynamoDB Items with Java By QueryRequest
使用java api:QueryRequest查询dynamodb时,无论什么情况下,必须得set hashkey1.简单查询(hashkey或者hashkey+rangekey或者hashkey+attribute):public Map getOne(String email) { Map expressionAttributesNames = new HashMap<>(原创 2017-09-16 22:41:34 · 830 阅读 · 0 评论 -
kafka+Structured Streaming+s3+dynamodb
本文主要介绍从kafka消费数据,并通过两个业务需求(统计PV,UV),然后分别输出到dynamodb和S3的demo,demo仅做演示逻辑def main(args: Array[String]) { val bucket:String = _ val pvCheckLocation:String = _ val uvCheckLocation:String = _原创 2017-08-30 17:16:50 · 1053 阅读 · 0 评论 -
Java update dynamodb api demo with UpdateItemSpec
UpdateItemSpec updateItemSpec = new UpdateItemSpec() .withPrimaryKey("year", year, "title", title) .withUpdateExpression("set info.rating = :r, info.plot=:p, info.actors=:a")原创 2017-09-22 10:43:17 · 632 阅读 · 0 评论 -
aws 的dynamodb 通过case class方式保存
首先说明下为什么要用case class,如果不用case class方式,通过普通的java bean也可以实现功能,但是在一些特定场合,比如想使用case class特性的时候就比较麻烦了。普通的java bean通过dynamoDBMapper可以很简单的注入,只要添加对应的anotation即可,但是case class的anotation是无法直接在scal里识别出来,因为aws的dyn...原创 2017-10-16 14:33:34 · 554 阅读 · 0 评论 -
Exactly Once Data Processing with Amazon Kinesis and Spark Streaming
The Kinesis Client Library provides convenient abstractions for interacting with Amazon Kinesis. Consumer checkpoints are automatically tracked in DynamoDB (Kinesis checkpointing) and it’s easy to spa...转载 2018-05-21 10:10:17 · 340 阅读 · 0 评论 -
aws 黑名单功能
如果你想授权某段IP访问,那么可以用安全组的白名单功能,但是安全组不提供黑名单功能。如果我们的某个服务受某个IP攻击,那么此时可以选择网络acl对其进行黑名单限制,操作步骤如下:1.登录aws,选择vpc2.vpc里有个网络acl,当然事先你要找到你服务对应的vpc3.选择编辑入站规则,入站规则会按照编号大小依次判断,默认有个100的,那么你可以添加一个rule no:90的,然后选择对应的封杀权...原创 2018-07-16 10:34:38 · 2787 阅读 · 0 评论 -
dynamodb QueryRequest & ScanRequest
public void addUser(String id, Date date) { Map<String,AttributeValue> attributeValues = new HashMap<>(); attributeValues.put("id",new AttributeValue().withS(id)); attributeV...原创 2018-09-01 15:18:56 · 1278 阅读 · 0 评论 -
如何在AWS云上跨VPC使用安全组
1. 安全组的作用?安全组类似于虚拟的防火墙,与网络接口关联,控制一个或多个实例资源的流量访问的策略2.安全组如何使用?安全组是通过对来源+端口(或者是协议)的方式来控制能够访问该实例资源的权限。其中来源主要有用 CIDR 表示法指定一个 IP 地址、CIDR 块或者同VPC内的其他安全组3.跨VPC如何通信?若两个VPC是私有的,则无法直接进行通信的,需要通过VPC peer...原创 2019-02-05 16:44:07 · 1867 阅读 · 0 评论 -
DynamoDB的分区与存储的注意事项
DynamoDB的分区如何计算呢?直接上公式:实际设置的读容量/最大读支持3000 + 实际设置的写容量/最大写支持1000 所得结果想上取整。即:(readCapacityUnits / 3000) + (writeCapacityUnits / 1000) = RoundUp(initPartitions).比如实际设置了1000个读和500个写,那么(1000 / 3000 ...转载 2019-02-05 17:19:56 · 527 阅读 · 0 评论 -
aws的EMR集群常用后台地址
YARN ResourceManager http://master-public-dns-name:8088/YARN NodeManager http://coretask-public-dns-name:8042/Hadoop HDFS NameNode http://master-public-dns-name:50070/Hadoop HDFS DataNode ...原创 2019-02-07 14:01:59 · 958 阅读 · 0 评论 -
如何在 Amazon EMR 上设置 Spark SQL JDBC 连接
问题我想从 SQL 客户端对我的 Amazon EMR 集群运行 SQL 查询。我如何为 Spark Thrift 服务器配置 Java 数据库连接 (JDBC) 驱动程序,以便我能做到这一点?解决方法注意:以下步骤需要 SQuirrel SQL 客户端。下载并安装SQuirrel SQL,然后再继续。1. 在 Amazon EMR 集群的主节点上,运行以下命令以启动 Sp...转载 2019-03-04 22:57:07 · 707 阅读 · 0 评论