Jbd0:前言 & Jbd1:概述

0. 教程地址

https://github.com/datawhalechina/juicy-bigdata/

Jbd0:前言

1. Ubuntu

最近气温升高天气渐热,手里的全能本发热严重,开虚拟机的话烫到爆炸,所以还是继续用腾讯云吧,从centos换到ubuntu

ubuntu@VM-0-12-ubuntu:/opt$ uname -a
Linux VM-0-12-ubuntu 5.4.0-96-generic #109-Ubuntu SMP Wed Jan 12 16:49:16 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

然后腾讯云给的默认用户就是ubuntu,我用的密钥登录还没有密码,设定root密码的话需要sudo passwd,具体参见1

2. 环境安装

教程给的安装包是在飞书,原本是想用wget直接下载的,但可能是因为这个分享有密码,所以不行

即便我参照博客2加上了密码等参数,还是不行。我也尝试了先cookie,这操作也不行

然后我之前下载有下载文件到本地,然后我想先传到学校的onedrive,然后服务器再来访问

然后还是不行,wget访问直接403: Forbidden,然后感觉是onedrive的问题,换关键字查博客

然后找到了两个博客34,里面的内容是一模一样的,总之思路还是要先拿到cookie

于是先在windows的界面访问分享连接,然后F12开始记录网络,之后再点击下载文件

然后我们去F12的网络页面里面找download.aspx/?….,右键复制为cURL(bash),也就是linux

cURL(bash)edge浏览器的称呼,Firefox里面的应该是cURL命令(POSIX),也就是博客的版本

这还不算完,复制得到的命令后面要加上--output file.extension,声明文件名和后缀,这才完整

然后我的ubuntu系统下,第一次尝试报错说权限不够,我在前面加了个sudo才运行成功

接着我就想到了,那飞书应该也是因为cookie的原因无法下载,似乎应该也能用这办法

于是同样登录后,先监控网络再点击下载,然后回去翻网络记录,找到一个boxcn···get

像上面一样,右键复制为cURL(bash),后面加上文件名及后缀,前面加上sudo,也成功了

Jbd1:概述

1. 信息化浪潮

信息化浪潮时间标志解决的问题
第一次浪潮1980个人计算机信息处理
第二次浪潮1995互联网信息传输
第三次浪潮2010物联网、云计算和大数据信息爆炸

2. 4V特征

数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocity)和价值密度低(Value)

2.1 Volume

对于数据的量,就现阶段的各大互联网公司而言,我感觉主要来自用户行为。像是传感器这些采集到大规模的数据,我感觉应该在工业领域更加常见

2.2 Variety

对于数据的种类,我感觉主要是互联网服务的繁荣吧。用户在聊天软件、支付软件、音乐软件、视频软件、购物软件、资讯软件等,都会产生大量的行为数据,种类繁多

2.3 Velocity

对于数据的高速处理,我感觉还是上面提到的在线服务的繁荣,以及庞大的互联网用户基础。在两者结合的情况下,每天都能产生大量的数据。

2.4 Value

关于数据的价值,一般确实不高,所以需要挖掘。教程举的例子是监控视频,如果没有发生什么事情,这段监控数据不用被查看,理论上来说也就没有价值。


  1. ubuntu默认root密码 ↩︎

  2. wget下载需要登陆或者cookies的网页 ↩︎

  3. Linux命令行下载OneDrive分享链接中的文件 ↩︎

  4. Linux命令行下载OneDrive分享链接中的文件–高玩梁的博客 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值