- 博客(4)
- 收藏
- 关注
原创 猫眼电影&经典电影爬取
使用request、xpath爬取网址》爬取该网址:猫眼电影之经典影片》爬取内容,如图所示:主要爬取:电影类型、主演、时间、片名和评分》代码如下:import requestsfrom lxml import etreeurl = "https://maoyan.com/films?showType=3"headers = { "Cookie": "_lxsdk_s=1...
2020-04-20 20:37:07 1919
转载 一些常见的反爬手段及解决思路
反反爬的主要思路反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,不清楚哪些有用,哪些没用的情况下,只能够去尝试,因为每个网站都是不相同的。当然在...
2020-04-15 17:04:03 470
原创 关于Scrapy框架中yield方法和Downloader中间件的讲解
yield方法1》作用:调用yield方法,将请求(request)发送给Scrapy Engine(引擎)进行处理2》参数分析:yield scrapy.Request( # 该Request对象代表了一个http请求,会经由Downloader去执行,从而产生一个response url=task["task_url"], # 请求数据库中的url callbac...
2020-04-04 22:32:21 752
原创 sublime搭载python
转型原因:Q:为什么有pycharm而不用,反倒是用sublime来编写python代码吗?A:个人觉得pycharm编辑器有点臃肿,虽然它功能强大,但是它没有sublime的简洁和快速,sublime打开效率比pycharm快很多。所以现在转用sublime来试试,而让pycharm为辅助。一、下载sublime软件》下载链接:http://www.sublimetext.cn/3》安...
2020-04-02 15:33:08 241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人