自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 爬虫从入门到入预(23)---大结局

今天是最后一个节课啦,主要内容是使用selenuim和超级鹰破解人机交互验证,基于一个比较官方的网站。from selenium.webdriver import Chromefrom selenium.webdriver.common.action_chains import ActionChains#导入事件链from selenium.webdriver.chrome.options import Optionsfrom chaojiying import Chaojiying_Clien

2022-03-30 12:15:24 1919

原创 爬虫从入门到入预(22)

总所周知,爬虫最烦的就是遇到验证码,人机验证之类的东西,极大降低了我们的爬取效率。这里我们介绍一个专门干掉验证码的工具——超级鹰,超级鹰的具体使用方法可以自行参考官网,首先在超级鹰注册一个账号,绑定公众号可以送1000分,验证一次10分起步,不正确不扣分。然后,具体的任务就是使用超级鹰的验证工具,破解超级鹰的登录。上代码:from selenium.webdriver import Chromefrom selenium.webdriver.common.keys import Keysimp

2022-03-29 16:02:47 525

原创 爬虫从入门到入预(21)

今天学习的是selenuim的无头浏览器,这个说法蛮有意思的。就是说我们在爬取数据的过程中并不希望浏览器不断打开新的网页,但是又可以爬到子网页的内容。所以叫无头浏览器。上代码:from selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.select import Selectfrom selenium.webd

2022-03-29 10:42:02 496

原创 爬虫从入门到入预(20)

今天开始学习新的爬虫分支,selenuim。selenuim 是一个自动化测试的工具,但是也时长用于爬虫实战。#能不能让我们的程序连接到浏览器,让浏览器完成各种复杂的操作,我们只用接受最终的结果#selenium,自动化测试工具#可以打开浏览器,像人一样操作浏览器#程序员可以从selenuim上提取网页中的各种信息#让selenium启动谷歌浏览器上代码:from selenium.webdriver import Chromefrom selenium.webdriver.c

2022-03-29 10:10:12 958

原创 爬虫从入门到入预(19)

今天做的是抓取视频的综合训练,具体过程比较复杂,但是执行效率高。是现行主流的抓取方法。主要涉及到bs4,re,异步协程,AES解密,等知识。具体看代码。主要任务:"""思路: 1. 拿到主页面的页面源代码, 找到iframe 2. 从iframe的页面源代码中拿到m3u8文件的地址 3. 下载第一层m3u8文件 -> 下载第二层m3u8文件(视频存放路径) 4. 下载视频 5. 下载秘钥, 进行解密操作 6. 合并所有ts文件为一个mp4文

2022-03-26 15:50:29 653 2

原创 爬虫从入门到入预(18)

今天学习的是如何爬取视频,回顾我们爬取网页文字小说或者图片的时候,大都是从主页面进入到子页面,然后图片就拿到它的src,文字小说大概是拿到某个节点的content.但是爬取视频和上述二者有较大的区别,视频在服务器中的存放是分清晰度和分切片的,以至于我们每次请求都只能请求较短的一小个切片,所以想要爬取一个完整的视频就需要不断请求各个切片的url。然后下载ts文件,并合并成为一个完整的mp4文件。#<video src="*****.mp4"></video>这种形式写的url会

2022-03-24 09:35:17 1034

原创 爬虫从入门到入预(17)

今天是异步协程的小实战,主要内容是从网站上下载一些图片,使用的是异步协程的思想,减少等待时间,加速爬取过程。主要使用新的包(aiohttp)# requests.get() 同步的代码 -> 异步操作aiohttp# pip install aiohttpimport asyncioimport aiohttpurls = [ “几个图片的地址,注意是.jpg不是.html”]async def aiodownload(url): # 发送请求. #

2022-03-21 14:24:40 831

原创 爬虫从入门到入预(16)

今天学习的是协程操作和异步协程#time.sleep(3),相当于将现在的线程阻塞3秒,让cpu先去忙别的事#input(),这个入口也是让程序处于阻塞状态#requests.get/post,在网络请求返回之前,程序也是一直处于阻塞状态的#一般情况下,当程序处于io操作的时候,我们的线程都会处于阻塞状态,cpu会有选择性得选择其他计算任务#协程:多任务并行处理时,当任务A出现IO,由任务A驱使CPU转向执行任务B,等任务B出现IO,则返回处理已经接受到数据的任务A#微观上,是一个任务一个

2022-03-20 17:52:24 433

原创 爬虫从入门到入预(15)

今天主要学的是线程池和进程池的内容,有一个关于守护的问题,就是只有当子程序的进程都结束了之后才能继续进行主程序,这个行为称之为守护。#线程池:一次性开放一些线程,用户直接把任务交给线程池,由线程池把任务分配给各个线程from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutordef fun(url): for i in range(1000): print(url,i)if __name__

2022-03-20 15:08:04 76

原创 爬虫从入门到入预(14)

今天首先介绍了多线程和多进程,属于是操作系统那块的知识了。#线程,进程,进程是资源单位,是内存中某一块已分配区域,线程包含多个进程,进程是执行单位,每一个进程至少含有一个线程#启动每一个程序至少会含有一个主线程#多线程# from threading import Thread## def fun():# for i in range(1,1000):# print("func",i)### if __name__=='__main__':# t

2022-03-20 14:58:03 70

原创 爬虫从入门到入预(13)

今天是综合实战!!涉及到请求,逆向,解密,爬取。目标是从某音乐软件的评论区爬取热评,可以说是大开眼界了!#1.找到未加密的参数 #window.asrsea(参数1,参数2,参数3.。。。。。)#2.想办法把参数进行加密,(使用的是某云的加密逻辑) #params->encText encSecKey->enSecKey#3.请求到网页,拿到评论信息1.打开网页,输入你想要的了解的歌2.进入子网页,抓包,一个个检查看评论的包在哪里,这里显示的是已经抓到评论区

2022-03-19 15:02:36 281

原创 爬虫从入门到入预(12)

今天主要接触到的知识点是防盗链,之前有过提及,现在是重点讲referer。任务:#视频从服务器返回的页面源代码里面可能没有video那个标签,极有可能是通过js或者脚本生成出来的(即二次请求,客户端渲染)#1.拿到contid#2.拿到videoStatus里面的json->srcUrl#3.srcUrl里面的内容进行修改#4.下载视频#1.拿到contidimport requestsurl="https://www.pearvideo.com/video_173

2022-03-15 16:13:13 1067

原创 爬虫从入门到入预(11)

今天是拿书架上数目数据。主要的点是使用requests.session会话去拿到数据,模拟我们上门户网站时都需要登录这一步的操作。任务 :#登录-拿到cookie#带着cookie去请求书架的url-获得书架内容#必须把以上两个步骤连在一起#我们可以使用session请求,因为session请求不会把cookie丢失import requests#会话session=requests.session()常规办法是先登录门户网站,然后到网站书架上获取书目。#method1

2022-03-15 15:52:15 981

原创 制作自己的标注数据集

因为毕业要求嘛,自己做标注数据集,基础数据是舌动超声图像,从医院采集的舌动超声视频。主要思路是:把视频划分成图像 逐帧进行标注 将标注信息显示在图像上,生成新的图像 将标图像合成视频话不多说开始上代码:首先我是使用matlab把视频划分成逐帧的图像%%将视频转换成帧图片clc;clear;close all;%% 读取视频video_path='path/***.avi'; video_obj=VideoReader(video_path); frame

2022-03-14 10:44:23 5214

原创 爬虫从入门到入预(10)

今天学习的是xpath解析的实战案例,主要使用猪八戒网,搜索saas,主要任务:#拿页面源代码#提取和解析数据老生常谈,获取数据import requestsfrom lxml import etreeimport csv#提取解析数据url="https://dongguan.zbj.com/search/f/?kw=saas"headers={ "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

2022-03-07 18:32:13 73

原创 飞浆EasyDL半自动标注语义分割及数据导出

写这一篇帖子实在是机缘巧合。导师让我手动标注一些图片,4000多张我寻思着我好歹也是学人工智能的,咋还能干这么不智能的事呢。然后就在CSDN上苦苦寻找了很多半自动标注的方法,说实话,都打不尽如人意,这里面我自己的原因占很大一部分,因为我小白也没用过label-me之类的。找了5,6个项目都不行,后来在一篇帖子深度学习图像-半自动和自动标注工具_u010451780的专栏-CSDN博客_半自动标注工具里面看到了百度开发的飞浆EASYDL平台,非常方便实用,但是前期因为没有开发数据导出功能,所以逼得我不得不自学

2022-03-07 17:11:24 4003 7

原创 爬虫从入门到入预(9)

今天的状态不是很好哦,但是今天学的是xpath解析,好在不是很难,就还行可以接受!xpath解析涉及到一些html和xml的相关知识。也不是很难,记得我第一次做毕业设计的时候看xml慢慢就看懂了。这里需要导入lxml包,我们所需要的xpath在lxml->etree->xpath内。#xpath是xml文档中搜索内容的一门语言#html是xml的一个子集from lxml import etree从网上随便扒了一段html的代码,然后写进自己创建的html文件中,记得设定编码方式“

2022-03-06 15:38:23 2415

原创 爬虫从入门到入预(8)

今天的强度不算很大,其实都是之前做过的事情,主要是还是用BS4里面的Beautifulsoup来爬取网页图片。因为老师用的是优美图库,但是我们现在已经使用不了了,所以在百度上随便找了一个桌面壁纸的网站,嘻嘻嘻下一点我喜欢的DOTA2壁纸。#1.拿到主页面的源代码,然后提取到子页面的链接href#2.通过href拿到子页面的内容,然后找到下载链接,进行下载 “img里面src的值就是下载地址”#3.下载图片这里的url1是因为子页面的url需要拼接主页url。但是我们使用的搜索出来的url和

2022-03-05 19:05:16 342

原创 爬虫从入门到入预(7)

今天的任务是爬一下中国水果交易网的信息。由于老师的课程是2021年年初的,它使用的是北京新发地菜市场的菜价,但是现在已经改版了,具体的网页形式我不认识,它的菜价信息是循环滚动的。所以为了跟上老师的知识步伐,我们改用了中国水果交易网的水果价格。今天所需要学的是BS4,从BS4内导入beautifulsoup进行爬取。接下来是代码:#beautifulsoup4解析#HTML超文本标记语言import requestsfrom bs4 import BeautifulSoupimport ..

2022-03-05 16:05:54 850

原创 爬虫从入门到入预(6)

昨天妈妈生病了,回去给妈妈煲汤喝,所以没有更新,也没有学习。今天把昨天的任务补上。昨天的主要内容是在电影天堂主页中#1.定位到2022必看片#2.从2022必看片中提取到子页面的链接#3.请求子页面的链接,拿到我们想要的下载地址话不多说,上代码import reimport requests#获取网页数据domain="https://www.dy2018.com"#电影天堂的域名应该改来改去的,我和老师的版本就不一样了resp=requests.get(domain)#如

2022-03-04 15:36:25 402

原创 爬虫从入门到入预(5)

之前写的文章感觉有点敷衍了事,从这一篇开始将会由知识点——代码——知识点这样进行组织。今天主要学习豆瓣电影排行榜250实战,说实话,这种东西不用忘得很快。甚至昨天学的今天就忘得差不多了,好在有写工作日志,随时可以复习。今天的主要工作是豆瓣电影排行榜250实战,找出电影名称,导演,年份和总评价人数。首先需要导入的包:requests,csv,re#拿到页面源代码#通过re提取数据import requestsimport reimport csv然后获得网页源代码,注意UA设置

2022-03-02 23:22:10 91

原创 爬虫从入门到入预(4)

今天学习的内容开始算的上是正式摸到了爬虫的大门。主要内容:数据解析式,正则表达式,re解析式。正则表达式其实感觉还好,主要是多理解,慢慢看总会越看越快的。老师的代码可以加上自己的小创意,出bug了不要怕,自己去解决才能相互印证所学知识。正好今天学正则表达式,下午就看了一篇热门的正则表达式,我觉得写的还不错,贴在这里:【Pyhton 爬虫】正则表达式_Riding the snail chase missiles ~-CSDN博客今天的代码量偏少,主要都是讲的正则表达式的内容正则表达式:.

2022-03-02 18:11:21 150

原创 爬虫从入门到入预(3)

今天主要学习的是requests这个包,现在还没有认识到这个包有多牛逼,反正老师说强就是强。第一部分使用pip安装requests,学习了一个简单的反爬机制,UA处理,从开发者选项中抄一下浏览器的UA设置,保存成字典,通过headers参数传递进入requests.get中,最后打印一下resp.text.#这里要求安装requests包,推荐使用清华源:#pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package(这

2022-03-01 19:12:06 355 1

原创 爬虫从入门到入预(2)

今天主要讲的是web请求和http协议,没有代码,直接放听课笔记:#web请求#1.服务器渲染,服务器把请求内容检索挑选并排序之后,写进html文件中,然后返回给浏览器#2.客户端渲染,第一次请求获得html骨架,第二次请求获得相关内容,由浏览器进行拼接。“在页面源代码中看不到数据!”#为了获得第二次请求的数据 ,则我们需要获得第二次请求的url,使用浏览器抓包工具获得#数据和html框架并不是每次都会捆绑在一起,分开请求获得也许更好,数据会以标准的json形式保存#http协议

2022-03-01 17:06:59 2008

原创 爬虫从入门到入预(1)

从B站学习爬虫教学。主要是爬一下百度主页的信息,然后将resp保存在html文件中,再用浏览器打开html文件。出现的问题有:使用open 函数时需要确定encoding的方式,不然写入html文件中会出现乱码现象。其实很好理解,就是说编码的时候不确定编码方式,那解码的时候就只能瞎蒙,也许OK,大概率乱码。其次,f.write使用完之后,记得用f.close。养成良好习惯。具体为啥现在还不知道!总代码:from urllib.request import urlopenur

2022-03-01 15:24:24 115

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除