【Lighthouse教程】网页内容抓取入门

VIP文章腾讯云服务器

于 2020-11-23 21:12:02 发布

阅读量1k

点赞数

分类专栏： 5分钟玩转Lighthouse 文章标签：腾讯云云服务器爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52466383/article/details/110003944

版权

概述

网页内容抓取（Web Scraping）是指通过网页抓取工具（即Web Crawler，亦称网页爬虫）对指定网页进行设定行为的自动访问，并进行数据分析提取、最终持久化至电子表格/数据库等存储的过程。此类工作对于科学研究、推荐系统设计、大数据挖掘分析、人工智能、商业分析等多类应用领域都是不可或缺的关键步骤。

本文是一篇入门教程，将向读者介绍网页抓取基本原理和步骤，并基于腾讯云的轻量应用服务器和Python工具Scrapy，快速上手并实践相对简易的爬虫工具。

目标读者：有一定Python实践和Web基础概念的的研究分析人员或技术爱好者。

实践目标：通过代码自动化抓取腾讯视频主页下的部分电影信息，并以CSV形式保存成电子表格。

网站内容示例
抓取后存储为CSV，方便电子表格软件展示和进一步处理。
输出为结构化的表格形式

环境准备

云服务器准备

第一步当然是准备环境，云服务器所提供的计算资源和网络能力是网页抓取任务的基础。不过这次让我们来点新鲜的，不用大家已经熟悉的CVM，而是试用下腾讯云新推出的轻量应用服务器，官网称它是最佳入门途径：

轻量应用服务器（Lighthouse）是一种易于使用和管理、适合承载轻量级业务负载的云服务器，能帮助个人和企业在云端快速构建网站、博客、电商、论坛等各类应用以及开发测试环境，并提供应用部署、配置和管理的全流程一站式服务，极大提升构建应用的体验，是您使用腾讯云的最佳入门途径。

这里使用Lighthouse实例的原因无他，主要是配置方便启动快，省得折腾工夫，价格也便宜些。我们直接在控制台新建即可，购买页设计得很简洁：

在这里插入图片描述轻量应用服务器选购的清爽界面
轻量应用服务器还支持不同的应用镜像，如WordPress、Node.js等，需要的话还是挺方便的。不过本实验用不到，这里我们直接选Ubuntu18.04的系统镜像就足够。登录后根据个人习惯简单配置下开始下一步。

Python3 VirtualEnv环境准备

Ubuntu18.04是默认安装了Python3 (3.6.9)，但是没有安装对应版本的VirtualEnv。如下命令安

最低0.47元/天解锁文章

腾讯云服务器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Lighthouse教程】网页内容抓取入门

概述网页内容抓取（Web Scraping）是指通过网页抓取工具（即Web Crawler，亦称网页爬虫）对指定网页进行设定行为的自动访问，并进行数据分析提取、最终持久化至电子表格/数据库等存储的过程。此类工作对于科学研究、推荐系统设计、大数据挖掘分析、人工智能、商业分析等多类应用领域都是不可或缺的关键步骤。本文是一篇入门教程，将向读者介绍网页抓取基本原理和步骤，并基于腾讯云的轻量应用服务器和Python工具Scrapy，快速上手并实践相对简易的爬虫工具。目标读者：有一定Python实践和Web基础概
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。