![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
一线摸鱼人员
python 日常学习分享
展开
-
爬虫剑谱第十页(关于拼多多商品信息的爬取<修改版>)
关于此前发布了一篇关于爬取拼多多商品信息的博客:爬虫剑谱第七页(输入关键词爬取拼多多商品信息并进行保存)_独一无二的李狗蛋儿的博客-CSDN博客出现了问题,运行结束后无法返回数据,up主在这里重新进行了修正,但让然无法进入商品详情页,只能爬取首页的商品图片等信息,如果有解决方法的朋友可以私信或进行评论。修正后代码:需要用到selenium库from selenium import webdriverfrom lxml import etreeimport time#实例化一个浏览器对象(原创 2021-12-03 16:35:49 · 2267 阅读 · 0 评论 -
爬虫剑谱第九页(关于爬取好看视频链接返回空列表的问题<已解决>)
爬虫思路: 在网站首页通过开发者选项选中视频详情页的链接,进入后需要再次进行网页解析并获取视频链接,将最终的视频链接网页进行二进制转码,下载到本地进行永久化保存遇到的问题: 在进入视频详情页后,通过Xpath获取视频链接的时候一直返回的是空列表,无论是通过在headers中添加Cookie还是Referer,又或者是在requests.get()中添加代理IP等等,都无法解决解决。问题原因:通过Xpath获取视频的视频链接是虚假的,在源码中...原创 2021-11-16 21:30:06 · 1823 阅读 · 0 评论 -
爬虫剑谱第八页(爬取糗图百科图片)
效果图:首先准备第三库:import requestsimport reimport osrequest:用于请求网页获取数据re:正则表达式os:操作文件创建一个文件夹:# 创建一个文件夹,用于保存爬取的图片if not os.path.exists('./糗图百科'): os.mkdir('./糗图百科')设置url以及和header头url = "https://www.qiushibaike.com/imgran...原创 2021-11-12 14:43:49 · 637 阅读 · 0 评论 -
爬虫剑谱第七页(输入关键词爬取拼多多商品信息并进行保存)
开始实战!获取药监局网页企业信息首先导入所需要的库import requestsimport jsonrequests库将会用于网络请求json库将会用于import requestsimport jsonurl = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"headers = { "User-Agent": "Mozilla/5.0 (W..原创 2021-10-25 09:38:15 · 4381 阅读 · 7 评论 -
爬虫剑谱第六页(爬取百度翻译)
首先打开百度翻译,进行翻译可以看到每次搜索的单词不同,搜索结果也就不同,其中页面中显示结果的部分,也会随着结果的变化而变化,这种页面局部变化的技术称为AJax。(一会需要用到)打开开发者选项(F12或点击鼠标左键选择检查),进入Network选择我们要捕获的数据包因为是数据是通过Ajax技术显示的,所以我们需要选择Ajax对应的数据请求包,也就是XHR进入以后,我们随便搜索一个单词,例如:dog图1图2图3我们可以看到,随着字母的增加,对应的数据包,也在增加,因...原创 2021-10-20 09:14:39 · 183 阅读 · 0 评论 -
爬虫剑谱第五页(网课笔记)
数据解析概述聚焦式爬虫:爬虫页面中指定的页面内容数据解析分类:-正则-bs4-Xpath数据解析原理概述:-解析的局部的文本内容都会在标签之间或者标签对应的属性中进行储存-1.进行指定标签的定位-2.标签或者标签对应的属性中存储的数据值进行提取(解析)编码流程:-指定url-发起请求-获取响应数据-数据解析-持久化存储...原创 2021-10-11 19:31:44 · 66 阅读 · 0 评论 -
爬虫剑谱第四页(网课笔记)
前期准备:requests第三方库 headers请求头user-agentrequests模块:Python原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。安装流程:pip install requests镜像:使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名he原创 2021-10-01 20:12:06 · 295 阅读 · 0 评论 -
爬虫剑谱第三页(网课笔记)
什么是http和https协议?http协议:超文本传输协议,一种发布和接收HTML页面的方法。https协议:是http协议的加密版本,在http下加入了ssl层(ssl层:SSL(Secure Socket Layer 安全套接层)是基于HTTPS下的一个协议加密层)...原创 2021-09-30 10:12:58 · 154 阅读 · 0 评论 -
爬虫剑谱第二页(网课笔记)
爬虫究竟合法还是违法?在法律中是不被禁止的具有违法的风险爬虫带来的风险分为以下两个方面:爬虫干扰了被访问网址的正常运营 爬虫抓取了收到法律保护的特定数据或者流量如何在使用编写爬虫的过程中避免进入“局子”的情况?时常优化自己的程序,避免干扰被访问网站的正常运行 在使用时,传播爬取到的数据时,审查爬取的内容,如果发现了商业机密等敏感内容需要及时停止爬取或传播...原创 2021-09-28 19:53:50 · 173 阅读 · 0 评论 -
爬虫剑谱第一页(网课笔记)
什么是爬虫?通过编写程序,模拟用户进行网页浏览,获取网页数据。爬虫可以用来干什么?抓取互联网上的数据,如新闻聚合阅读器、不同区域间的价格差价、美女(正能量)图片、编程技术大全等等。其次,在当下大数据时代的大背景下,爬虫工程师也会拥有较大的发展空间,爬虫技术的应用也会也来越广泛。总的来说,爬虫在实际应用和就业方面都有不俗的表现以及需求。网课链接:2020年Python爬虫全套课程(学完可做项目)_哔哩哔哩_bilibili...原创 2021-09-26 11:25:05 · 143 阅读 · 0 评论