网络爬虫
安西宁
这么多是学不完的呀!
学会当前你要用的就行了。
展开
-
爬虫工具selenium与Firefox浏览器配合使用,下载geckodriver
Github上geckodriver的下载地址:geckodriver注:如果打不开可能需要浏览器插件配合打开页面。查找Firefox的二进制路径找到Firefox图标,右键属性,查看位置信息将解压后的geckodriver.exe复制粘贴到路径文件夹下 4. 代码中指明路径from selenium import webdriverfrom selenium.webdriver.firefox.firefox_binary import FirefoxBinarybina原创 2022-01-19 10:39:04 · 891 阅读 · 0 评论 -
requests,bs4与lxml配合写爬虫(也许没有必要,就是尝试一下),保存到文档、数据库或者直接输出。
python3.8pycharm(2019.3.1):python IDE,python的集成开发环境1、网页源码r = requests.get(url)tree = lxml.etree.HTML(r.text)soup = bs4.Beautifulsoup(url, ‘lxml’)到目前为止,通过阅读相关文本,感觉tree和soup中的内容是一样的。2、进行信息提取info...原创 2020-03-04 09:00:00 · 288 阅读 · 0 评论 -
python爬虫,图片爬取成功,涉及正则匹配等相关知识点
1、对于任意网站局部右键点击查看元素,可找到其在源代码中的位置,不好截图但是很简单,可以自己尝试。2、分析完文本结构以后,开始写爬虫代码```pythonimport osimport reimport requestsfrom bs4 import BeautifulSoup# 提取每张图片的地址urldef get_ads(): ads = [] pic...原创 2020-02-26 22:13:32 · 766 阅读 · 0 评论