爬取——刘雯丽

(上课记录)

1、先在cmd中安装scrapy

python -m pip install --upgrade pip

pip install wheel

pip install lxml

pip install twisted

pip install pywin32

pip install scrapy

打开一个终端输入(建议放到合适的路径下,默认是C盘)

2、创建项目

scrapy startproject TXmovies

cd TXmovies

scrapy genspider txmsv.qq.com

这样桌面就会出现一个TXmovies的文档

3:修改setting

ROBOTSTXT_OBEY=False

DOWNLOAD_DELAY=1DEFAULT_REQUEST_HEADERS={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language':'en','User-Agent':'Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.94Safari/537.36'}ITEM_PIPELINES={'TXmovies.pipelines.TxmoviesPipeline':300,}

4:确认要提取的数据 item项

#-*-coding:utf-8-*-#Defineherethemodelsforyourscrapeditems

#

#Seedocumentationin:

#https://docs.scrapy.org/en/latest/topics/items.html

importscrapy

classTxmoviesItem(scrapy.Item):

#definethefieldsforyouritemherelike:

#name=scrapy.Field()

name=scrapy.Field()

description=scrapy.Field()

5:爬虫程序 (略)

首先腾讯视频的url为

https://v.qq.com/x/bu/pagesheet/listappend=1&channel=cartoon&iarea=1&listpage=2&offset=0&pagesize=30

我们注意到offset这一项,第一页的offset为0,第二页为30,依次推列。在程序中这一项用于控制抓取第一页,但是也要给一个范围,不可能无限大,否则会报错,可以去看看腾讯一共有多少页视频,也可以写一个异常捕获机制,捕捉到请求出错则退出

6:管道输出

class TxmoviesPipeline(object):

def process_item (self,item,spider):

print (item)

return item

7:run执行输出

from scrapy import cmdline

cmdline.execute('scrapycrawltxms'.split())
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值