爬虫
文章平均质量分 52
最低调的奢华
忽有故人心上过,回首山河已是秋。
恍惚半生烂若泥,连哭都怕失了礼。
展开
-
select 下拉框标签,用selenium处理
1.我们来以https://www.17sucai.com/pins/demo-show?id=5926这个网站进行练习下拉框iframe 是html标签,作用是文档中的文档如果有iframe标签,我们就需要切换到这个标签1.我们需要导入一个模块from selenium.webdriver.support.ui import Select2.其次它有个iframe标签,所以我们现需要转换driver.switch_to_frame(driver.find_element_by_id('原创 2021-05-15 21:14:12 · 330 阅读 · 1 评论 -
selenium点击浏览器的简单方法
1.导入selenium模块,也可以导入第二行模块,通过其他方式来定位from selenium import webdriverfrom selenium.webdriver.common.by import By2.我们来以百度为例来打开并且输入点击https://www.baidu.com/driver = webdriver.Chrome()driver.get('https://www.baidu.com/')通过上面俩行代码,我们就可以来打开浏览器下面我们来定位输入框,原创 2021-05-15 20:42:22 · 520 阅读 · 0 评论 -
bs4中select方法的学习
从以下文本中查找html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three l.原创 2021-05-11 22:38:32 · 3272 阅读 · 0 评论 -
bs4中的方法详解
1.bs4的简单应用在以下的html文件中来提取我们所需要的数据html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon原创 2021-05-08 22:29:05 · 2017 阅读 · 0 评论 -
爬取页面的一张照片然后保存
第一步,爬取下面的图片一共又三种方法,在百度中找到你所需要的照片然后打开图片,点击右键出现以下画面2.然后,点击上面的链接就是 url,爬虫最主要的处理对象是URL。简单说url就是输入的网址(例如:http://www.cnblogs.com/kaituorensheng/)3.如果用方法1的话:就是用with(open)不需要关闭,方法2,open就需要close去关闭,方法3,就是利用了urllib的模块,以下就是完整代码...原创 2021-03-09 23:41:42 · 144 阅读 · 0 评论 -
爬虫的介绍
1.爬虫的介绍TCP/IP国际通用的爬虫所用的是http协议1.爬虫是什么?简单的来讲就是代替人去模拟浏览器进行网页操作2.为什么需要爬虫?为其他程序提供数据源,类似于百度,谷歌,抖音,AI等等3.企业获取数据的方式?1.公司自有的数据2.第三方平台购买的数据PC端的互联网 -->2000-2015移动端的互联网(3G,4G) -->2015至今的大数据互联网–>人工智能的互联网3.爬虫爬取的数据4.用python做爬虫的优势?PHP:多线程,异步支原创 2021-03-12 17:36:54 · 116 阅读 · 0 评论 -
爬取贴吧上几页的内容
1.正常方法贴吧爬取import urllib.requestimport urllib.parsebaseurl=‘https://tieba.baidu.com/f?’headers={‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3706.400 SLBrowser/10原创 2021-03-13 18:16:36 · 400 阅读 · 2 评论 -
利用爬虫来制作一个翻译小软件
1.打开有道翻译的在线翻译点击检查2.点击network,然后输入需要翻译的内容,将进入以下界面3.然后导入以下模块:import urllib.requestimport urllib.parseimport json先设置一个死循环while True:可以一直翻译找到最下面的data,然后把他做成一个字典,把‘i’所对应的值改成key,就是我们想翻译的值,然后在输入:data=urllib.parse.urlencode(data)即是二进制的转化,之后把data数据转化为字节流的原创 2021-03-13 18:40:12 · 231 阅读 · 0 评论 -
爬取页面的所有图片,学到就是赚到,即使是刚入门的也可以来尝试爬取一系列图片
1.拿到目标url此时的url就是你搜索百度上这个页面的网址,然后,导入requests和re模块上面网址中的index我们可以改成flip让他变成页码形式import requestsimport reurl='https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=result&fr=&sf=1&f原创 2021-03-19 23:39:16 · 254 阅读 · 0 评论 -
爬取豆瓣top250上的前十页的电影,评分,标题,并且转化成excel的格式保存
# https://movie.douban.com/top250?start=0&filter= 第一页# https://movie.douban.com/top250?start=25&filter= 第二页# https://movie.douban.com/top250?start=50&filter= 第三页# (page-1)*25# a = 1# {}.format()import requestsfrom lxml import etreeimp.原创 2021-03-22 23:08:56 · 1242 阅读 · 0 评论 -
xpath的简介及其安装教程
1.xpath是什么?xpath就是一种可以根据地址找人的技术 确定的路径xpath是在xml下查找的技术,如果我们需要查找html文件的内容,就需要lxml库来进行转化xpath(XML Path Language) 可以在树状结构中寻找结点 可以通过元素和属性进行导2.xpath有什么作用?解析网页 提取数据我们对不同的网页采取不同的方法,也可能会用到正则来提取都是解析网页的方法2.html,xml,lxml的区别html 超文本标记语言xml 可扩展标记语言lx原创 2021-05-05 15:33:08 · 2067 阅读 · 0 评论 -
csv模块的使用
1.csv模块是python的内置模块,跨多种形式导入导出数据,excel进行打开格式可以是.csv .json .html .txt2.写入csv文件1.通过创建writer对象用到了writerow是写入一行,用writerows是写入多行的import csvheaders = ('name','age','sex')persons = [ ('张三',16,'男'), ('李四',15,'男'), ('王麻子',13,'女')]with o原创 2021-04-29 17:22:43 · 499 阅读 · 0 评论 -
python爬虫内置模块urllib详解
1.什么是urllib模块?python内置的网络请求模块2.为什么要学习这个模块?许多比较老的爬虫项目就是要用这个技术我们爬取一些数据需要requests和urllib模块配合完成内置的3.用requests模块下载一张图片 和 urllib来下载一张图片来进行对比import requestsurl = 'https://alifei03.cfp.cn/creative/vcg/veer/800water/veer-145089182.jpg'res = requests.g原创 2021-04-20 15:12:26 · 580 阅读 · 1 评论