前置
如果要使用自己的数据集,要先上传档案到storage,因为从本机无法上传大档案到bigquery。
第一步:开始storge,建立值域并上传档案。
第二步:到bigquery建立资料集,建立表(上一步的档案)
完成!
启动datalab
从google shell 启动:$ datalab connect -your-instance
连接到8801
整理资料表
首先,先查看当前有多少表:%bq tables list
%bq是datalab的bigquery魔术指令,因此我们不用import bigquery.
另外,想知道其他功能可以用%bq -h 来查看。
再来查看表内是否正确,
%bq tables view -n 专案.DATASET.表名
上述功能可以视为等同于df.head()的功能,且使用view是不会花费查询的(bigquery是会收费的,查看这里的具体方案)
使用SQL完成资料串接
首先写query来引入表
%bq query -n Concat
INSERT DATASET.表2 (栏位1, 栏位2)
SELECT 栏位1, 栏位2
FROM `专案.DATASET.表1`
写好之后先不急著执行,先dryrun看一下用量,结果会存在云端
%bq dryrun -q Concat
确定执行
%bq execute -q Concat
使用前面提到的方法来检视表
%bq tables view -n 专案.DATASET.表
如果成功即可把表1删除
import google.datalab.bigquery as bq
_ = bq.Table("DATASET.表1").delete()