[GCP]使用Datalab和BigQuery分析资料

最新推荐文章于 2024-06-09 07:51:18 发布

inty3251

最新推荐文章于 2024-06-09 07:51:18 发布

阅读量621

点赞数

分类专栏：大数据 gcp

本文链接：https://blog.csdn.net/weixin_43983379/article/details/107404994

版权

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

前置

如果要使用自己的数据集，要先上传档案到storage，因为从本机无法上传大档案到bigquery。
第一步：开始storge，建立值域并上传档案。
第二步：到bigquery建立资料集，建立表（上一步的档案）
完成！

从google shell 启动：$ datalab connect -your-instance
连接到8801

首先，先查看当前有多少表：%bq tables list
%bq是datalab的bigquery魔术指令，因此我们不用import bigquery.
另外，想知道其他功能可以用%bq -h 来查看。
再来查看表内是否正确，

%bq tables view -n 专案.DATASET.表名

上述功能可以视为等同于df.head()的功能，且使用view是不会花费查询的（bigquery是会收费的，查看这里的具体方案）

首先写query来引入表

%bq query -n Concat
INSERT DATASET.表2 (栏位1, 栏位2)
SELECT 栏位1, 栏位2
FROM `专案.DATASET.表1`

写好之后先不急著执行，先dryrun看一下用量，结果会存在云端

%bq dryrun -q Concat

确定执行

%bq execute -q Concat

使用前面提到的方法来检视表

%bq tables view -n 专案.DATASET.表

如果成功即可把表1删除

import google.datalab.bigquery as bq
_ = bq.Table("DATASET.表1").delete()

关注

专栏目录