codting-CSDN博客

原创爬虫从入门到入预（23）---大结局

今天是最后一个节课啦，主要内容是使用selenuim和超级鹰破解人机交互验证，基于一个比较官方的网站。from selenium.webdriver import Chromefrom selenium.webdriver.common.action_chains import ActionChains#导入事件链from selenium.webdriver.chrome.options import Optionsfrom chaojiying import Chaojiying_Clien

2022-03-30 12:15:24 1919

原创爬虫从入门到入预（22）

总所周知，爬虫最烦的就是遇到验证码，人机验证之类的东西，极大降低了我们的爬取效率。这里我们介绍一个专门干掉验证码的工具——超级鹰,超级鹰的具体使用方法可以自行参考官网，首先在超级鹰注册一个账号，绑定公众号可以送1000分，验证一次10分起步，不正确不扣分。然后，具体的任务就是使用超级鹰的验证工具，破解超级鹰的登录。上代码：from selenium.webdriver import Chromefrom selenium.webdriver.common.keys import Keysimp

2022-03-29 16:02:47 525

原创爬虫从入门到入预（21）

今天学习的是selenuim的无头浏览器，这个说法蛮有意思的。就是说我们在爬取数据的过程中并不希望浏览器不断打开新的网页，但是又可以爬到子网页的内容。所以叫无头浏览器。上代码：from selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.select import Selectfrom selenium.webd

2022-03-29 10:42:02 496

原创爬虫从入门到入预（20）

今天开始学习新的爬虫分支，selenuim。selenuim 是一个自动化测试的工具，但是也时长用于爬虫实战。#能不能让我们的程序连接到浏览器，让浏览器完成各种复杂的操作，我们只用接受最终的结果#selenium，自动化测试工具#可以打开浏览器，像人一样操作浏览器#程序员可以从selenuim上提取网页中的各种信息#让selenium启动谷歌浏览器上代码：from selenium.webdriver import Chromefrom selenium.webdriver.c

2022-03-29 10:10:12 958

原创爬虫从入门到入预（19）

今天做的是抓取视频的综合训练，具体过程比较复杂，但是执行效率高。是现行主流的抓取方法。主要涉及到bs4,re,异步协程，AES解密，等知识。具体看代码。主要任务："""思路: 1. 拿到主页面的页面源代码, 找到iframe 2. 从iframe的页面源代码中拿到m3u8文件的地址 3. 下载第一层m3u8文件 -> 下载第二层m3u8文件(视频存放路径) 4. 下载视频 5. 下载秘钥, 进行解密操作 6. 合并所有ts文件为一个mp4文

2022-03-26 15:50:29 653 2

原创爬虫从入门到入预（18）

今天学习的是如何爬取视频，回顾我们爬取网页文字小说或者图片的时候，大都是从主页面进入到子页面，然后图片就拿到它的src，文字小说大概是拿到某个节点的content.但是爬取视频和上述二者有较大的区别，视频在服务器中的存放是分清晰度和分切片的，以至于我们每次请求都只能请求较短的一小个切片，所以想要爬取一个完整的视频就需要不断请求各个切片的url。然后下载ts文件，并合并成为一个完整的mp4文件。#<video src="*****.mp4"></video>这种形式写的url会

2022-03-24 09:35:17 1034

原创爬虫从入门到入预（17）

今天是异步协程的小实战，主要内容是从网站上下载一些图片，使用的是异步协程的思想，减少等待时间，加速爬取过程。主要使用新的包（aiohttp）# requests.get() 同步的代码 -> 异步操作aiohttp# pip install aiohttpimport asyncioimport aiohttpurls = [ “几个图片的地址，注意是.jpg不是.html”]async def aiodownload(url): # 发送请求. #

2022-03-21 14:24:40 831

原创爬虫从入门到入预（16）

今天学习的是协程操作和异步协程#time.sleep(3),相当于将现在的线程阻塞3秒，让cpu先去忙别的事#input()，这个入口也是让程序处于阻塞状态#requests.get/post,在网络请求返回之前，程序也是一直处于阻塞状态的#一般情况下，当程序处于io操作的时候，我们的线程都会处于阻塞状态，cpu会有选择性得选择其他计算任务#协程：多任务并行处理时，当任务A出现IO，由任务A驱使CPU转向执行任务B，等任务B出现IO，则返回处理已经接受到数据的任务A#微观上，是一个任务一个

2022-03-20 17:52:24 433

原创爬虫从入门到入预（15）

今天主要学的是线程池和进程池的内容，有一个关于守护的问题，就是只有当子程序的进程都结束了之后才能继续进行主程序，这个行为称之为守护。#线程池：一次性开放一些线程，用户直接把任务交给线程池，由线程池把任务分配给各个线程from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutordef fun(url): for i in range(1000): print(url,i)if __name__

2022-03-20 15:08:04 76

原创爬虫从入门到入预（14）

今天首先介绍了多线程和多进程，属于是操作系统那块的知识了。#线程，进程，进程是资源单位，是内存中某一块已分配区域，线程包含多个进程，进程是执行单位，每一个进程至少含有一个线程#启动每一个程序至少会含有一个主线程#多线程# from threading import Thread## def fun():# for i in range(1,1000):# print("func",i)### if __name__=='__main__':# t

2022-03-20 14:58:03 70

原创爬虫从入门到入预（13）

今天是综合实战！！涉及到请求，逆向，解密，爬取。目标是从某音乐软件的评论区爬取热评，可以说是大开眼界了！#1.找到未加密的参数 #window.asrsea(参数1，参数2，参数3.。。。。。)#2.想办法把参数进行加密，（使用的是某云的加密逻辑） #params->encText encSecKey->enSecKey#3.请求到网页，拿到评论信息1.打开网页，输入你想要的了解的歌2.进入子网页，抓包，一个个检查看评论的包在哪里，这里显示的是已经抓到评论区

2022-03-19 15:02:36 281

原创爬虫从入门到入预（12）

今天主要接触到的知识点是防盗链，之前有过提及，现在是重点讲referer。任务：#视频从服务器返回的页面源代码里面可能没有video那个标签，极有可能是通过js或者脚本生成出来的（即二次请求，客户端渲染）#1.拿到contid#2.拿到videoStatus里面的json->srcUrl#3.srcUrl里面的内容进行修改#4.下载视频#1.拿到contidimport requestsurl="https://www.pearvideo.com/video_173

2022-03-15 16:13:13 1067

原创爬虫从入门到入预（11）

今天是拿书架上数目数据。主要的点是使用requests.session会话去拿到数据，模拟我们上门户网站时都需要登录这一步的操作。任务：#登录-拿到cookie#带着cookie去请求书架的url-获得书架内容#必须把以上两个步骤连在一起#我们可以使用session请求，因为session请求不会把cookie丢失import requests#会话session=requests.session()常规办法是先登录门户网站，然后到网站书架上获取书目。#method1

2022-03-15 15:52:15 981

原创制作自己的标注数据集

因为毕业要求嘛，自己做标注数据集，基础数据是舌动超声图像，从医院采集的舌动超声视频。主要思路是：把视频划分成图像逐帧进行标注将标注信息显示在图像上，生成新的图像将标图像合成视频话不多说开始上代码：首先我是使用matlab把视频划分成逐帧的图像%%将视频转换成帧图片clc;clear;close all;%% 读取视频video_path='path/***.avi'; video_obj=VideoReader(video_path); frame

2022-03-14 10:44:23 5214

原创爬虫从入门到入预（10）

今天学习的是xpath解析的实战案例，主要使用猪八戒网，搜索saas，主要任务：#拿页面源代码#提取和解析数据老生常谈，获取数据import requestsfrom lxml import etreeimport csv#提取解析数据url="https://dongguan.zbj.com/search/f/?kw=saas"headers={ "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

2022-03-07 18:32:13 73

原创飞浆EasyDL半自动标注语义分割及数据导出

写这一篇帖子实在是机缘巧合。导师让我手动标注一些图片，4000多张我寻思着我好歹也是学人工智能的，咋还能干这么不智能的事呢。然后就在CSDN上苦苦寻找了很多半自动标注的方法，说实话，都打不尽如人意，这里面我自己的原因占很大一部分，因为我小白也没用过label-me之类的。找了5,6个项目都不行，后来在一篇帖子深度学习图像-半自动和自动标注工具_u010451780的专栏-CSDN博客_半自动标注工具里面看到了百度开发的飞浆EASYDL平台，非常方便实用，但是前期因为没有开发数据导出功能，所以逼得我不得不自学

2022-03-07 17:11:24 4003 7

weixin_43655132的博客

原创爬虫从入门到入预（23）---大结局

原创爬虫从入门到入预（22）

原创爬虫从入门到入预（21）

原创爬虫从入门到入预（20）

原创爬虫从入门到入预（19）

原创爬虫从入门到入预（18）

原创爬虫从入门到入预（17）

原创爬虫从入门到入预（16）

原创爬虫从入门到入预（15）

原创爬虫从入门到入预（14）

原创爬虫从入门到入预（13）

原创爬虫从入门到入预（12）

原创爬虫从入门到入预（11）

原创制作自己的标注数据集

原创爬虫从入门到入预（10）

原创飞浆EasyDL半自动标注语义分割及数据导出

原创爬虫从入门到入预（9）

原创爬虫从入门到入预（8）

原创爬虫从入门到入预(7)

原创爬虫从入门到入预（6）

原创爬虫从入门到入预（5）

原创爬虫从入门到入预（4）

原创爬虫从入门到入预（3）

原创爬虫从入门到入预（2）

原创爬虫从入门到入预（1）

空空如也

pycharm误删除文件