【Lighthouse教程】网页内容抓取入门

概述

网页内容抓取(Web Scraping)是指通过网页抓取工具(即Web Crawler,亦称网页爬虫)对指定网页进行设定行为的自动访问,并进行数据分析提取、最终持久化至电子表格/数据库等存储的过程。此类工作对于科学研究、推荐系统设计、大数据挖掘分析、人工智能、商业分析等多类应用领域都是不可或缺的关键步骤。

本文是一篇入门教程,将向读者介绍网页抓取基本原理和步骤,并基于腾讯云的轻量应用服务器和Python工具Scrapy,快速上手并实践相对简易的爬虫工具。

目标读者:有一定Python实践和Web基础概念的的研究分析人员或技术爱好者。

实践目标:通过代码自动化抓取腾讯视频主页下的部分电影信息,并以CSV形式保存成电子表格。

网站内容示例
抓取后存储为CSV,方便电子表格软件展示和进一步处理。
输出为结构化的表格形式

环境准备

云服务器准备

第一步当然是准备环境,云服务器所提供的计算资源和网络能力是网页抓取任务的基础。不过这次让我们来点新鲜的,不用大家已经熟悉的CVM,而是试用下腾讯云新推出的轻量应用服务器,官网称它是最佳入门途径:

轻量应用服务器(Lighthouse)是一种易于使用和管理、适合承载轻量级业务负载的云服务器,能帮助个人和企业在云端快速构建网站、博客、电商、论坛等各类应用以及开发测试环境,并提供应用部署、配置和管理的全流程一站式服务,极大提升构建应用的体验,是您使用腾讯云的最佳入门途径。

这里使用Lighthouse实例的原因无他,主要是配置方便启动快,省得折腾工夫,价格也便宜些。我们直接在控制台新建即可,购买页设计得很简洁:

在这里插入图片描述轻量应用服务器选购的清爽界面
轻量应用服务器还支持不同的应用镜像,如WordPress、Node.js等,需要的话还是挺方便的。不过本实验用不到,这里我们直接选Ubuntu18.04的系统镜像就足够。登录后根据个人习惯简单配置下开始下一步。

Python3 VirtualEnv环境准备

Ubuntu18.04是默认安装了Python3 (3.6.9),但是没有安装对应版本的VirtualEnv。如下命令安

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值