python爬虫之数据爬取项目实例

一、scrapy数据爬取

(一)前期准备

scrapy安装(略)

(二)目标:

1、网页url:https://ke.qq.com/course/list?mt=1001&page=1
(tx课堂的具体课程网页)
2、爬取分页1-20
3、爬取字段:
course = scrapy.Field() #课程名称 ./h4/a/text()
schedule = scrapy.Field() #课程进度 ./div[1]/span/text()
company = scrapy.Field() #开课机构 ./div[1]/a/text()
pay = scrapy.Field() #费用 ./div[2]/span[1]/text()
hot = scrapy.Field() #热度 ./div[2]/span[2]/text()

(三)步骤:

1、创建项目:

在scrapyProject目录下创建scrapy项目:
D:…\scrapyProject>scrapy startproject ke

2、创建爬虫:

D:…\scrapyProject>cd ke
D:…\scrapyProject\boss>scrapy genspider keLesson ke.qq.com

3、打开项目:

选择scrapyProject目录下的ke项目
注意:不要打开成ke子目录中的ke

4、创建启动程序:

创建一个run.py文件并添加启动命令`

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "keLesson"])
5、编写爬虫:

keLesson.py编写:

import scrapy
from ke.items import KeItem

class KelessonSpider(scrapy.Spider):
    name = 'keLesson'
    # 须是爬取网页的网站域名
    allowed_domains = ['ke.qq.com']

	# 分页爬取1-20的网页地址urls
    def start_requests<
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值