爬网程序可以在单次运行中爬取多个数据存储。完成后,爬网程序会在________________中创建或更新一个或多个表。
解析:
数据目录 or AWS Glue Data Catalog
_________________是用于在AWS Glue 中执行提取、转换和加载 (ETL) 工作的业务逻辑。AWS Glue 将运行一个从源中提取数据、转换数据并将其加载到目标中的脚本。
解析:
作业 or job
配置_________________可帮助 AWS Glue 维护状态信息,并可防止重新处理旧数据。
解析:
作业书签 or Job bookmark
EMR
对于带有header的csv文件food_establishment_data.csv(包含 2006 年至 2020 年华盛顿州金县卫生部门的检查结果),将 CSV 文件上传到S3 存储桶:demo-emr。以下是数据集中的示例行。
name, inspection_result, inspection_closed_business, violation_type, violation_points
100 LB CLAM, Unsatisfa