大数据
inty3251
这个作者很懒,什么都没留下…
展开
-
[datalab]数据分析
前言使用GCP的datalab,把资料放在bigtable中调用,必须先把资料上传到云端硬碟,再使用bigtable汇入。datalab中使用bigquery查看有哪些表%bq tables list显示表部分内容%bq tables view -n (table)合并两张表%bq query -n -Concat下面接要加入的表与插入的表,及所要栏位INSERTFROM可以用%bq dryrun -q Concat先看要用多少资源后,再execute删除表import go原创 2020-08-10 10:46:56 · 248 阅读 · 0 评论 -
[GCP]使用Datalab和BigQuery分析资料
前置如果要使用自己的数据集,要先上传档案到storage,因为从本机无法上传大档案到bigquery。第一步:开始storge,建立值域并上传档案。第二步:到bigquery建立资料集,建立表(上一步的档案)完成!启动datalab从google shell 启动:$ datalab connect -your-instance连接到8801整理资料表首先,先查看当前有多少表:%bq tables list%bq是datalab的bigquery魔术指令,因此我们不用import bi原创 2020-07-17 12:07:13 · 641 阅读 · 0 评论 -
[GCP]建立Datalab
云端开发环境:Cloud Datalab步骤使用GCP里的shell查看要使用的机房gcloud compute zones list再来使用选择的机房创建Datalabdatalab create mydatalabvm --zone <ZONE>过程会问ssh passphrase,没有就直接按Enter。3. 开启:成功后可直接去Web Perview. Port number改为8081。4. 结束后记得停止VM省钱5. 重新启动:到shell输入dat原创 2020-06-25 09:21:02 · 178 阅读 · 0 评论 -
[3]入门大数据-HadoopHDFS
初识核心分布式记算框架:MapReduce HDFS实现分布式文件系统hdfs源自于google的GFS论文先将每个文件拆分大小,存到不同node。架构官方文档NameNode and DataNodes(1). Master (NameNode/ NN) 带 n 个slave(DataNode/ DN)HDFS/ YARN/ HBase(2). 1个文件会被拆分成多个...原创 2020-04-08 13:29:11 · 94 阅读 · 0 评论