自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 猫眼电影&经典电影爬取

使用request、xpath爬取网址》爬取该网址:猫眼电影之经典影片》爬取内容,如图所示:主要爬取:电影类型、主演、时间、片名和评分》代码如下:import requestsfrom lxml import etreeurl = "https://maoyan.com/films?showType=3"headers = { "Cookie": "_lxsdk_s=1...

2020-04-20 20:37:07 1919

转载 一些常见的反爬手段及解决思路

反反爬的主要思路反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够去尝试,因为每个网站都是不相同的。当然在...

2020-04-15 17:04:03 470

原创 关于Scrapy框架中yield方法和Downloader中间件的讲解

yield方法1》作用:调用yield方法,将请求(request)发送给Scrapy Engine(引擎)进行处理2》参数分析:yield scrapy.Request( # 该Request对象代表了一个http请求,会经由Downloader去执行,从而产生一个response url=task["task_url"], # 请求数据库中的url callbac...

2020-04-04 22:32:21 752

原创 sublime搭载python

转型原因:Q:为什么有pycharm而不用,反倒是用sublime来编写python代码吗?A:个人觉得pycharm编辑器有点臃肿,虽然它功能强大,但是它没有sublime的简洁和快速,sublime打开效率比pycharm快很多。所以现在转用sublime来试试,而让pycharm为辅助。一、下载sublime软件》下载链接:http://www.sublimetext.cn/3》安...

2020-04-02 15:33:08 241

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除