20_python爬虫
20_python爬虫
雨师@
曾经喜欢编程解决一些工作中的问题,经常使用的语言是golang,python,js等,热爱各种技术学习以及应用,目前主要做项目管理以及招投标事项工作,以前是解决局部问题,现在是站在项目总体上俯瞰项目结构,引领项目向着项目终点前进,随时解决局部出现的问题。--2023年
展开
-
golang爬虫--模版
【代码】golang爬虫--模版。原创 2023-05-22 17:07:40 · 179 阅读 · 0 评论 -
爬虫以类的形式存在--推荐使用
爬虫以类的形式存在--推荐使用,一个建议的模版形式,可以在项目中使用。原创 2023-05-08 18:10:35 · 50 阅读 · 0 评论 -
selenium无头方式的优化--推荐使用
更新了一些新的内容,去掉报错提示。1.添加cookie。2.添加 proxy。原创 2023-01-04 15:19:42 · 278 阅读 · 0 评论 -
无头浏览器的访问方式
【代码】无头浏览器的访问方式。原创 2023-01-04 12:37:09 · 209 阅读 · 0 评论 -
爬虫内容学习-工具类---Selenium--元素定位以及属性内容获取
实例:selenium中元素的文本以及属性内容的获取。就是通过浏览器的js代码,让内容移动的浏览器的底部。1.在搜索框中输入 “”“壁纸”可以在谷歌浏览器的控制台那里输入。实例2,关于js代码的内容。4.在移动到页面最低端。2.移动到页面最低端。原创 2023-01-04 12:14:09 · 884 阅读 · 0 评论 -
爬虫内容学习-工具类---Selenium-v1-总结梳理1
该对象用来描述Web页面上的一个元素,下面看一个常用的WebElement属性和方法。WebDriver的find方法定位到元素后,会返回一个WebElement对象,原创 2023-01-04 11:40:16 · 220 阅读 · 0 评论 -
爬虫内容学习-工具类---Selenium
工作中建议重点:requests库+xpath库+Xpath Helper【浏览器工具】+selenium结合使用。爬虫目前涉及两种一是获取网页类的如urllib库,requests库,对网页进行获取,获取内容,保存,响应等。后期使用的过程中,建议requests库+xpath库+Xpath Helper【浏览器工具】这两件事,python都有相应的库帮你去做,你只需要知道如何去用它们就可以了。前期练习的时候,可以使用requests库+正则表达式 进行练习。发送GET请求,获取HTML [第一类]原创 2023-01-03 13:09:05 · 509 阅读 · 0 评论 -
爬虫内容学习-工具类--bs4内容
跟前面的爬虫的思路都是一样的,bs4的定位与xpath,re正则,定位一样。2.使用bs4解析获取页面的内容。原创 2022-12-20 10:48:25 · 235 阅读 · 0 评论 -
网页爬虫的本质
a class="name" href="/tupian/22121952142.htm" title="野生绿头鸭图片" target="_blank">野生绿头鸭图片2.获取元素的属性值:如获取img src="//270242aa339_s.jpg"中的src中的270242aa339_s.jpg内容。//img/@src 就是可以获取到img的src内容。//img[@属性名称=“属性值”” ] 属性定位。1.获取/body/div/img的文本值就是。定位1:按照一层层定位“/”原创 2022-12-20 10:17:42 · 520 阅读 · 1 评论 -
爬虫内容学习-工具类---re-正则表达式的梳理
例如:表达式 [a-z]{2,4} 匹配最少 2 位最多 4 位 a-z 的字母。在不同语言中体现的在(2.函数不一样),常用元字符都是基本上一样的。1.正则表达式中 {}常⽤来限定⼀个或⼀组字符可以重复出现的次数。控制前面的元字符出现的次数。原创 2022-12-18 11:50:40 · 692 阅读 · 0 评论 -
爬虫内容学习-工具类---xpath-1
Python爬虫中Xpath的用法,相信每一个写爬虫、或者是做网页分析的人,都会因为在定位、获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定位一些id,class属性去找到对应的位置,非常的麻烦,二、解析网页内容:是网页中有很多内容,爬虫的本质是选择我需要的内容,例如我只想网页中的一部分图片,一部分视频或者一部分特殊的内容,这个选择的“部分”主要有1.正则表达式 2.xpath 3.前期练习的时候,可以使用requests库+正则表达式 进行练习。原创 2022-12-12 12:55:19 · 1174 阅读 · 1 评论 -
1-requests库的使用--爬虫
原理:response默认都是解码的utf8编码,如果是不同的编码需要通过response .encoding='gb2312' ,指定编码,否则有可能乱码。注意地方:如果涉及编码的问题的时候,先查看网页的编码,(如果网页的编码是gb2312的话)那就是。1.proxy代理服务的使用:避免ip被封。2.模拟浏览器行为headers,使用。原创 2022-11-30 17:42:07 · 188 阅读 · 1 评论