[GCP]使用Datalab和BigQuery分析资料

前置

如果要使用自己的数据集,要先上传档案到storage,因为从本机无法上传大档案到bigquery。
第一步:开始storge,建立值域并上传档案。
第二步:到bigquery建立资料集,建立表(上一步的档案)
完成!

启动datalab

从google shell 启动:$ datalab connect -your-instance
连接到8801

整理资料表

首先,先查看当前有多少表:%bq tables list
%bq是datalab的bigquery魔术指令,因此我们不用import bigquery.
另外,想知道其他功能可以用%bq -h 来查看。
再来查看表内是否正确,

%bq tables view -n 专案.DATASET.表名

上述功能可以视为等同于df.head()的功能,且使用view是不会花费查询的(bigquery是会收费的,查看这里的具体方案)

使用SQL完成资料串接

首先写query来引入表

%bq query -n Concat
INSERT DATASET.2 (栏位1, 栏位2)
SELECT 栏位1, 栏位2
FROM `专案.DATASET.1`

写好之后先不急著执行,先dryrun看一下用量,结果会存在云端

%bq dryrun -q Concat

确定执行

%bq execute -q Concat

使用前面提到的方法来检视表

%bq tables view -n 专案.DATASET.表

如果成功即可把表1删除

import google.datalab.bigquery as bq
_ = bq.Table("DATASET.表1").delete()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值