怎么用Python写爬虫抓取网页数据

最新推荐文章于 2024-06-04 17:07:47 发布

xiaoyaGrace

最新推荐文章于 2024-06-04 17:07:47 发布

阅读量354

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/xiaoyaGrace/article/details/103610917

版权

机器学习首先面临的一个问题就是准备数据，数据的来源大概有这么几种：公司积累数据，购买，交换，政府机构及企业公开的数据，通过爬虫从网上抓取。本篇介绍怎么写一个爬虫从网上抓取公开的数据。

很多语言都可以写爬虫，但是不同语言的难易程度不同，Python作为一种解释型的胶水语言，上手简单、入门容易，标准库齐全，还有丰富的各种开源库，语言本身提供了很多提高开发效率的语法糖，开发效率高，总之“人生苦短，快用Python”(Life is short, you need Python!)。在Web网站开发，科学计算，数据挖掘/分析，人工智能等很多领域广泛使用。

开发环境配置，Python3.5.2，Scrapy1.2.1，使用pip安装scrapy，命令：pip3 install Scrapy，此命令在Mac下会自动安装Scrapy的依赖包，安装过程中如果出现网络超时，多试几次。

创建工程

首先创建一个Scrapy工程，工程名为：kiwi，命令：scrapy startproject kiwi，将创建一些文件夹和文件模板。

定义数据结构

settings.py是一些设置信息，items.py用来保存解析出来的数据，在此文件里定义一些数据结构，示例代码：

[url=][/url]
1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See documentation in: 6 #http://www.smpeizi.com/en/latest/topics/items.html 7 8 import scrapy 9 10 11 class AuthorInfo(scrapy.Item):12 authorName = scrapy.Field() # 作者昵称13 authorUrl = scrapy.Field() # 作者Url14 15 class ReplyItem(scrapy.Item):16 content = scrapy.Field() # 回复内容17 time = scrapy.Field() # 发布时间18 author = scrapy.Field() # 回复人(AuthorInfo)19 20 class TopicItem(scrapy.Item):21 title = scrapy.Field() # 帖子标题22 url = scrapy.Field() # 帖子页面Url23 content = scrapy.Field() # 帖子内容24 time = scrapy.Field() # 发布时间25 author = scrapy.Field() # 发帖人(AuthorInfo)26 reply = scrapy.Field() # 回复列表(ReplyItem list)27 replyCount = scrapy.Field() # 回复条数[url=][/url]

上面TopicItem中嵌套了AuthorInfo和ReplyItem list，但是初始化类型必须是scrapy.Field()，注意这三个类都需要从scrapy.Item继续。

创建爬虫蜘蛛

工程目录spiders下的kiwi_spider.py文件是爬虫蜘蛛代码，爬虫代码写在这个文件里。示例以爬豆瓣群组里的帖子和回复为例。

[url=]

[/url]
1 # -*- coding: utf-8 -*- 2 from scrapy.selector import Selector

最低0.47元/天解锁文章

xiaoyaGrace

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
怎么用Python写爬虫抓取网页数据

机器学习首先面临的一个问题就是准备数据，数据的来源大概有这么几种：公司积累数据，购买，交换，政府机构及企业公开的数据，通过爬虫从网上抓取。本篇介绍怎么写一个爬虫从网上抓取公开的数据。很多语言都可以写爬虫，但是不同语言的难易程度不同，Python作为一种解释型的胶水语言，上手简单、入门容易，标准库齐全，还有丰富的各种开源库，语言本身提供了很多提高开发效率的语法糖，开发效率高，总之“人生苦短，快用...
复制链接

扫一扫