python爬虫之数据爬取项目实例

最新推荐文章于 2023-07-07 23:59:36 发布

贝利2

最新推荐文章于 2023-07-07 23:59:36 发布

阅读量1.8k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_43797991/article/details/118756406

版权

python爬虫之数据爬取项目实例

- 一、scrapy数据爬取

一、scrapy数据爬取

（一）前期准备

scrapy安装（略）

（二）目标：

1、网页url：https://ke.qq.com/course/list?mt=1001&page=1
（tx课堂的具体课程网页）
2、爬取分页1-20
3、爬取字段：
course = scrapy.Field() #课程名称 ./h4/a/text()
schedule = scrapy.Field() #课程进度 ./div[1]/span/text()
company = scrapy.Field() #开课机构 ./div[1]/a/text()
pay = scrapy.Field() #费用 ./div[2]/span[1]/text()
hot = scrapy.Field() #热度 ./div[2]/span[2]/text()

（三）步骤：

1、创建项目：

在scrapyProject目录下创建scrapy项目：
D:…\scrapyProject>scrapy startproject ke

2、创建爬虫：

D:…\scrapyProject>cd ke
D:…\scrapyProject\boss>scrapy genspider keLesson ke.qq.com

3、打开项目：

选择scrapyProject目录下的ke项目
注意：不要打开成ke子目录中的ke

4、创建启动程序：

创建一个run.py文件并添加启动命令`

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "keLesson"])

5、编写爬虫：

keLesson.py编写:

import scrapy
from ke.items import KeItem

class KelessonSpider(scrapy.Spider):
    name = 'keLesson'
    # 须是爬取网页的网站域名
    allowed_domains = ['ke.qq.com']

	# 分页爬取1-20的网页地址urls
    def start_requests<

最低0.47元/天解锁文章

贝利2

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之数据爬取项目实例

scrapy爬取数据+Spark数据统计scrapy数据爬取目的：1、网页url：https://ke.qq.com/course/list?mt=1001&page=12、爬取分页1-53、爬取字段：course = scrapy.Field() #课程名称 ./h4/a/text()schedule = scrapy.Field() #课程进度 ./div1/span/text()company = scrapy.Field() #开课机构 ./div1/a/t
复制链接

扫一扫