自动化数据采集

  • 目录

    数据源

    开放数据源

    python爬虫过程

    日志采集

    埋点(面试重点)

    比特币预测从哪些维度抓取数据?


    数据源

    • 开放数据源:政府、企业、高校
    • 爬虫抓取:网页、APP
    • 日志采集:前端采集、后端脚本
    • 传感器:图像、测速、热敏
  • 开放数据源

  • python爬虫过程

    • 使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库。
    • 使用 XPath 解析内容。XPath 是 XML Path 的缩写,也就是 XML 路径语言。它是一种用来确定 XML 文档中某部分位置的语言,在开发中经常用来当作小型查询语言。XPath 可以通过元素和属性进行位置索引。
    • 使用 Pandas 保存数据。Pandas 是让数据分析工作变得更加简单的高级数据结构,我们可以用 Pandas 保存爬取的数据。最后通过 Pandas 再写入到 XLS 或者 MySQL 等数据库中。
    • 除此之外,做 Python 爬虫还有很多利器,比如 Selenium,PhantomJS,或者用 Puppteteer 这种无头模式
    • 常用抓取工具:
      • 火车采集器:适用于大部分网页。还可以做数据清洗、数据分析、数据挖掘和可视化工作。
      • 八爪鱼:免费的采集模板实际上就是内容采集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集,用起来非常方便。当然你也可以自己来自定义任务。
      • 集搜客:相比于八爪鱼来说,集搜客没有流程的概念,用户只需要关注抓取什么数据,而流程细节完全交给集搜客来处理。
  • 日志采集

    • 通过Web服务器采集。例如httpd、Nginx、Tomcat都自带日志记录功能。Hadoop的Chukwa、Cloudera的Flum、FaceBook的Scribe等都是采用分布式架构。
    • 自定义采集用户行为。例如用JavaScript 代码监听用户的行为、AJAX 异步请求后台记录日志等。
  • 埋点(面试重点)

    • 埋点是日志采集的关键步骤。埋点就是在有需要的位置采集相应的信息,进行上报。埋点就是在需要统计数据的地方植入统计代码。一般使用第三方工具(如友盟、Google Analysis、Talkingdata)

 

  • 比特币预测从哪些维度抓取数据?

    • 1、认知度:社会对比特币的认可,抓取百度指数、谷歌搜索量、微博数据等
    • 2、比特币依赖的技术:作为数字货币,核心技术的完善和认可度占比重较大,可以从区块链相关技术网站爬取数据,也可以从微博爬取(微博也是技术人活跃的交流平台)
    • 3、供给平衡:比特币虽说是一种数字货币,但仍逃脱不掉是一种商品的本质,商品必然受市场平衡调节影响,所以爬取买入量、抛售量还有历史价格也是一种预测维度
    • 4、政府政策:政府政策的影响占很大比重,若国家出台政策强制打压或者支持,那么对价格的影响起了根本性作用,所以需要爬取相关的新闻
    • 5、竞争数字货币:作为一种商品,必然要考虑竞争品的相关情况,需要抓取其它数字货币相关信息如其它货币的价格、交易量。资本在流入其它市场的时候,与之对应的竞品必然会受影响。抓取数据途径:其它货币交易平台
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值