自动化数据采集

最新推荐文章于 2023-07-20 01:29:11 发布

wiki_hui

最新推荐文章于 2023-07-20 01:29:11 发布

阅读量941

点赞数

分类专栏： BigData 文章标签： python 数据分析

本文链接：https://blog.csdn.net/wiki_lsh/article/details/108489927

版权

BigData 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

目录

数据源

开放数据源

python爬虫过程

日志采集

埋点（面试重点）

比特币预测从哪些维度抓取数据？

数据源
- 开放数据源：政府、企业、高校
- 爬虫抓取：网页、APP
- 日志采集：前端采集、后端脚本
- 传感器：图像、测速、热敏

开放数据源

单位	数据源	网址
美国人口调查局	提供人口信息、地区分布和教育情况的美国公民信息	http://www.census.gov/data.html
欧盟	欧盟开发数据平台，提供欧盟各机构的大量数据	http://open-data.europa.eu/en/data/
FaceBook	官方API，查询用户公开的海量信息	http://developers.facebook.com/docs/graph-api
Amazon	亚马逊服务开放数据集	http://aws.amazon.com/datasets
Google	谷歌金融，收录了40年来股票数据，实时更新	https://www.google.com/finance
北京大学	北京大学开发研究数据平台	http://opendata.pku.edu.cn/
ImageNet	目前世界上图像识别最大的数据库，包库近1500万张图像	http://www.image-net.org/

python爬虫过程
- 使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器，也就是 Python 的 HTTP 库。
- 使用 XPath 解析内容。XPath 是 XML Path 的缩写，也就是 XML 路径语言。它是一种用来确定 XML 文档中某部分位置的语言，在开发中经常用来当作小型查询语言。XPath 可以通过元素和属性进行位置索引。
- 使用 Pandas 保存数据。Pandas 是让数据分析工作变得更加简单的高级数据结构，我们可以用 Pandas 保存爬取的数据。最后通过 Pandas 再写入到 XLS 或者 MySQL 等数据库中。
- 除此之外，做 Python 爬虫还有很多利器，比如 Selenium，PhantomJS，或者用 Puppteteer 这种无头模式
- 常用抓取工具：
  - 火车采集器：适用于大部分网页。还可以做数据清洗、数据分析、数据挖掘和可视化工作。
  - 八爪鱼：免费的采集模板实际上就是内容采集规则，包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集，用起来非常方便。当然你也可以自己来自定义任务。
  - 集搜客：相比于八爪鱼来说，集搜客没有流程的概念，用户只需要关注抓取什么数据，而流程细节完全交给集搜客来处理。
日志采集
- 通过Web服务器采集。例如httpd、Nginx、Tomcat都自带日志记录功能。Hadoop的Chukwa、Cloudera的Flum、FaceBook的Scribe等都是采用分布式架构。
- 自定义采集用户行为。例如用JavaScript 代码监听用户的行为、AJAX 异步请求后台记录日志等。
埋点（面试重点）
- 埋点是日志采集的关键步骤。埋点就是在有需要的位置采集相应的信息，进行上报。埋点就是在需要统计数据的地方植入统计代码。一般使用第三方工具（如友盟、Google Analysis、Talkingdata）

比特币预测从哪些维度抓取数据？
- 1、认知度:社会对比特币的认可,抓取百度指数、谷歌搜索量、微博数据等
- 2、比特币依赖的技术:作为数字货币,核心技术的完善和认可度占比重较大,可以从区块链相关技术网站爬取数据,也可以从微博爬取(微博也是技术人活跃的交流平台)
- 3、供给平衡:比特币虽说是一种数字货币,但仍逃脱不掉是一种商品的本质,商品必然受市场平衡调节影响,所以爬取买入量、抛售量还有历史价格也是一种预测维度
- 4、政府政策:政府政策的影响占很大比重,若国家出台政策强制打压或者支持,那么对价格的影响起了根本性作用,所以需要爬取相关的新闻
- 5、竞争数字货币:作为一种商品,必然要考虑竞争品的相关情况,需要抓取其它数字货币相关信息如其它货币的价格、交易量。资本在流入其它市场的时候,与之对应的竞品必然会受影响。抓取数据途径:其它货币交易平台

wiki_hui

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自动化数据采集

目录数据源开放数据源 python爬虫过程日志采集埋点（面试重点）比特币预测从哪些维度抓取数据？数据源开放数据源：政府、企业、高校爬虫抓取：网页、APP 日志采集：前端采集、后端脚本传感器：图像、测速、热敏开放数据源单位数据源网址美国人口调查局提供人口信息、地区分布和教育情况的美国公民信息 http://www.census.gov/data.html 欧..
复制链接

扫一扫