Python爬虫
咸蛋_dd
Salty egg咸蛋记录日常
ACM两年选手,算法依然在研究中,web小白,涉猎较广
展开
-
Python爬虫入门案例6:scrapy的基本语法+使用scrapy进行网站数据爬取
而且下载scrapy可以直接在一个文件里面写import scrapy,然后install scrapy包就可以了,很快就下完了。几天前在本地终端使用pip下载scrapy遇到了很多麻烦,总是报错,花了很长时间都没有解决,最后发现pycharm里面自带终端!这样的好处就是每次不用切换路径了,pycharm会直接把路径定位到项目包的路径下,非常方便。下面举个例子,使用scrapy来爬取汽车之家的汽车型号,与其对应的价格。,于是直接在pycharm终端里面写scrapy了。(1)创建scrapy爬虫项目。原创 2023-05-24 15:59:53 · 1056 阅读 · 1 评论 -
Python爬虫入门案例5:使用selenium进行Chrome浏览器的模拟行为
一开始跟着网课敲案例的代码,发现很多代码都报错了,百度了一下发现是因为现在的selenium已经舍弃了一些语法,需要用新的语法来进行爬取,这里写的是修改过后的代码,可以直接拿来用)案例:使用selenium,打开baidu首页,然后在搜索框搜索“咸蛋dd”,查看下一页,然后返回上一页,最后退出页面。果然还是要自己手敲一遍,否则我都不知道这个语法有变化了。原创 2023-05-19 18:06:29 · 808 阅读 · 0 评论 -
Python爬虫入门案例4:使用Xpath语法爬取多个页面的图片
(不要忘了在运行代码之前更改自己的UA,同时在项目中创建名为loveimg的文件夹,否则图片无法下载会报错的)urllib.request.urlretrieve(url=“路径”,filename="文件名")描述:使用xpath来进行页面的解析,爬取站长素材网某个分类的图片,并把它们全部下载到本地。该页面更新之后就不再使用懒加载了,直接使用img的。这个属性进行图片地址的解析就可以了。原创 2023-05-10 17:07:29 · 520 阅读 · 0 评论 -
Xpath语法+简单例子
XPath在XML解析、数据抽取、Web抓取等领域发挥着重要的作用,也是XML技术栈中不可或缺的一环。查找满足id为head同时class为s_down的div。//:查找所有子孙节点,不考虑层级关系。查找id属性值中以xddd为前缀的div。查找id属性值中包含xddd的div。查找满足title或者满足price。查找所有div下的h1标签中的内容。记得更改自己的UA,否则报错。查找id为main的div。查找有id属性的div。原创 2023-05-09 11:19:27 · 705 阅读 · 0 评论 -
Python爬虫入门案例3:使用handler处理器访问baidu
因为我们之前使用的urlopen无法使用动态cookie和代理来访问网站。下面用一个例子来演示handler的基本使用。就可以成功获取baidu的html代码了。为什么要使用handler处理器?原创 2023-05-08 13:31:32 · 71 阅读 · 0 评论 -
Python爬虫入门案例1:ajax的get方法爬取排行榜多个电影数据,并保存下载
limit 20 20 20(每个页面的电影数量,固定的)pycharm的快捷键ctrl+Alt+L可以格式化json文件,或者直接右键json文件,选择。可以看到生成了5个不同的json文件,每个文件里面存放的是电影的信息。爬取结果:(这里爬取的是第1到第5页的数据)找规律:start=(page-1)*20。这里的分类是动作电影。原创 2023-05-05 20:16:34 · 299 阅读 · 0 评论 -
Python爬虫入门案例2:ajax的post方法爬取kfc官网门店地区数据,并保存下载
首先分析url,发现我们在切换页码的时候,url没有任何变化,只有表单数据中的pageindex发生了变化(这里爬取的是青岛的门店地址)所以url无需变化,只需要更改data就可以了。原创 2023-05-07 14:34:05 · 270 阅读 · 0 评论 -
关于https://www....类型的URL使用parse.quote转换成unicode后无法正常访问报错问题
关于https://www....类型的URL使用parse.quote转换成unicode后无法正常访问报错问题原创 2023-04-27 21:13:21 · 220 阅读 · 0 评论