![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
创造只有你的世界
这个作者很懒,什么都没留下…
展开
-
爬取拉勾网招聘信息笔记
问题1.爬取时进行循环翻页时找不到结束条件解决方案:当点击下一页有效时 按钮的类为’pager_next ’ 而当点击下一页按钮无效时,该按钮的类变成了’pager_next pager_next_disabled’所以在获取按钮后获取该按钮的属性,如果该按钮的类为’pager_next’则执行click,若类不为’pager_next’ 则break循环。...原创 2021-03-30 17:17:57 · 303 阅读 · 1 评论 -
python爬取豆瓣top250电影知识点记录
爬虫需要使用的python库分别:1. urllib.request2. bs4中的BeautifulSoup3. re4. xlwtPart1:urllib.request主要用于模拟浏览器获取网页中的htmlhead={ # 模拟浏览器头部信息,向豆瓣服务器发送消息,防止网页识别出爬虫 报错418 "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like原创 2021-03-08 22:18:52 · 471 阅读 · 1 评论