python爬虫之数据爬取项目实例
一、scrapy数据爬取
(一)前期准备
scrapy安装(略)
(二)目标:
1、网页url:https://ke.qq.com/course/list?mt=1001&page=1
(tx课堂的具体课程网页)
2、爬取分页1-20
3、爬取字段:
course = scrapy.Field() #课程名称 ./h4/a/text()
schedule = scrapy.Field() #课程进度 ./div[1]/span/text()
company = scrapy.Field() #开课机构 ./div[1]/a/text()
pay = scrapy.Field() #费用 ./div[2]/span[1]/text()
hot = scrapy.Field() #热度 ./div[2]/span[2]/text()
(三)步骤:
1、创建项目:
在scrapyProject目录下创建scrapy项目:
D:…\scrapyProject>scrapy startproject ke
2、创建爬虫:
D:…\scrapyProject>cd ke
D:…\scrapyProject\boss>scrapy genspider keLesson ke.qq.com
3、打开项目:
选择scrapyProject目录下的ke项目
注意:不要打开成ke子目录中的ke
4、创建启动程序:
创建一个run.py文件并添加启动命令`
from scrapy.cmdline import execute
execute(["scrapy", "crawl", "keLesson"])
5、编写爬虫:
keLesson.py编写:
import scrapy
from ke.items import KeItem
class KelessonSpider(scrapy.Spider):
name = 'keLesson'
# 须是爬取网页的网站域名
allowed_domains = ['ke.qq.com']
# 分页爬取1-20的网页地址urls
def start_requests<