爬虫学习
如是我闻___一时
这个作者很懒,什么都没留下…
展开
-
微博移动版获取评论时返回{ok:0}的解决办法
评论获取的方法可以参考这篇文章https://www.jianshu.com/p/8dc04794e35f,讲的非常详细。 但是可能一些朋友还是会和我遇到一样的问题:无论做什么尝试在第一页之后评论返回的都是{ok:0},这是因为第一页之后的评论想要获取需要登录!!!但是一部分同学在加入登录账号后的cookies值之后依然返回的是{ok:0},这是因为微博限制了评论获取的次数,即便你登陆了账号,短时间也只能获取1次评论!!!!!!(如果多次获取便会返回{ok:0}) ...原创 2021-09-14 15:26:51 · 1332 阅读 · 0 评论 -
Ajax数据爬取
1.Ajax简介: 简单来说,就是爬取数据时保持URL不变,通过Ajax请求向服务器请求资源以丰富界面的技术[比如说在https://m.weibo.cn往下滑获得更多的微博,B站主页也采用了此技术]。它的过程也很简单:1.发送ajax请求 2.解析服务器返回的内容 3.浏览器中渲染网页。 2.Ajax分析: 以https://m.weibo.cn/u/6481722754(夹带私货,嘿嘿)为例。 1.查看请求。依次:①鼠标右键选择“检查”进入开发者选...原创 2021-09-06 10:38:30 · 505 阅读 · 0 评论 -
Scrapy框架downloader middleware实现随机User-Agent设置
1.在middleware.py中添加一个新类: class RandomUserAgentMiddleware(): def __init__(self): # 随机的列表 self.user_agents = ['User-Agent_01','User-Agent_02','...'] def process_request(self,request,spider): request.headers['User-Agent'] = r原创 2021-08-27 19:59:43 · 104 阅读 · 0 评论 -
豆瓣TOP250电影相关信息获取
刚开始学爬虫,根据Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析_哔哩哔哩_bilibili学习,自己简单敲了一遍: import urllib.request import urllib.error import re from bs4 import BeautifulSoup import xlwt baseurl = 'https://movie.douban.com/top250?start=' findLink = re.compile(r'&l...原创 2021-08-18 18:06:19 · 342 阅读 · 0 评论