![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
#Python&爬虫
不停歇向前^-^蜗牛
初来乍道,请多多指教
展开
-
python — 二手房
链接查看网页是否存在数据锁定需要爬取下来的数据信息导入库pip install pymysqlfrom mongodb import add_many # pycharm 误报存储在MySQL中存储在MongoDB关于如何将数据存储在MySQL当中关于如何将数据存储在MongoDB当中获取页面源代数据解析源码调用封装函数...原创 2022-04-06 11:15:34 · 149 阅读 · 0 评论 -
【python】网上下载后的文件如何使用呢?
你是否会出现这样的情况,首先想到的是在网上查找,打开某浏览器时,便会出现一大堆看不懂的文件,此时会靠感觉点击进去下载,你懂得,哈哈哈!安装库包文件加密代码import PyPDF2# # #加密PDFdef encrypt(old_Path, new_Path): """ :param old_Path: 待加密文件的路径名 :param new_Path: 加密之后的文件路径名 """ with open(old_Path, 'rb') as pdfF原创 2022-03-29 21:50:46 · 899 阅读 · 0 评论 -
【selenium】python&&安装及初步认识
简介 -> selenium是一种浏览器自动化的工具,所谓的自动化是指,我们可以通过代码的形式制定一系列的行为动作,然后执行代码,这些动作就会同步触发在浏览器中。环境安装 ## 开发环境安装selenium:pip install selenium下载浏览器驱动程序: ## 链接:http://chromedriver.storage.googleapis.com/index.html如下图查浏览器版本号查看驱动和浏览器版本的映射关系 ## 转发链接:http://b原创 2022-03-18 22:08:22 · 108 阅读 · 0 评论 -
【M3U8】python(流视频数据)
HLS技术介绍现在大部分视频客户端都采用HTTP Live Streaming,而不是直接播放MP4等视频文件(HLS,Apple为了提高流播效率开发的技术)。HLS技术的特点是将流媒体切分为若干【TS片段】(比如几秒一段),然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现实时流式播放。因此,在爬取HLS的流媒体文件的思路一般是先【下载M3U8文件】并分析其中内容,然后在批量下载文件中定义的【TS片段】,最后将其【组合】成mp4文件或者直接保存TS片段。说说简单,其实在实际操作中原创 2022-03-15 18:02:54 · 11610 阅读 · 2 评论 -
【药监总局】python&&抓取企业详情数据
提前准备工作一.http://scxk.nmpa.gov.cn:81/xk/二.要求:抓取每一家企业的企业详情数据思路1.在对一个陌生的网站进行数据爬取前,首先要确定我们想要爬取的数据是否为动态加载数据?2.先进入到任意一家企业的详情页中,查看企业的详情数据是否为动态加态数据? # 3.基于抓包工具进行局部搜索 # 搜索的到:不是动态加载 # 搜索不到:是动态加载 # 发生企业的详情数据是动态加载数据3如何捕获动态加载数据 # 基于抓包工具进行全局搜索,定位到动态加载数原创 2022-03-10 19:03:18 · 2459 阅读 · 3 评论 -
python&&代理
代理代理服务器代理服务器的作用就是用来转发请求和响应在爬虫中为何需要使用代理?有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象则会讲请求对应机器的ip地址加入黑名单,则该ip再次发起的请求,网站服务器就不在受理则我们就无法再次爬取该网站的数据。使用代理后,网站服务器接收到的请求,最终是由代理服务器发起,网站服务器通过请求获取的ip就是代理服务器的ip,并不是我们客户端本身的ip.代理的匿名度# 透明:网站的服务器知道你使用的代理,也知道你的真实ip# 匿名原创 2022-03-08 21:35:03 · 355 阅读 · 0 评论 -
【xueqiu】python&&cookie处理机制
目的:url:https://xueqiu.com/ ,需求就是爬取热帖内容页面整体分析代码分析import requests ## 创建一个空白的session对象session = requests.Session()# url:https://xueqiu.com/ ,需求就是爬取热帖内容# 经过分析发现帖子的内容是通过ajax动态加载出来的,因此通过抓包工具,定位到ajax请求的数据包,从数据包中提到:# url = https://xueqiu.c原创 2022-03-08 20:39:51 · 673 阅读 · 0 评论 -
【简历】python&&站长素材
网站网址及网站名站长素材https://sc.chinaz.com/jianli/index.htmlhttps://sc.chinaz.com/jianli/free_2.html打开浏览器,查找是否存在锁定具体(整个网页)在某个位置下载整页的简历链接地址# 站长素材# https://sc.chinaz.com/jianli/index.html# https://sc.chinaz.com/jianli/free_2.htmlimport requestsimport os原创 2022-03-07 22:10:19 · 292 阅读 · 0 评论 -
【防盗链】Python&&见招拆招处理
进入到某网站,查看页面源代码查看请求对比一下,突破点处理防盗链# 1.拿到contId# 2.拿到videoStatus返回的json. -> srcUrl# 3. srcUrl 里面的内容进行修整# 4. 下载视频import requests# 拉取视频的网址 -> 进入到指定某个视频页面源码url = "https://www.pearvideo.com/video_1514115"contId = url.split("_")[1]videoStat原创 2022-02-02 10:43:06 · 487 阅读 · 0 评论 -
【模拟登录】Python&cookie&17k
访问该网址时(17k.com),新用户需要注册登入后便可查看到历史记录案例# 登录 => 得到cookie# 带着 cookie 去请求到书架url -> 书架上的内容# 必得得把上面的两个操作连起来# 我们可以使用session进行请求 -> session你可以认为是一连串的请求。在这个过程中的cookie不会丢失import requests# 会话(session) 意思是两个人座在一起聊天场景# session = requests.session原创 2022-02-02 10:08:15 · 1078 阅读 · 1 评论 -
#Python&&pyquery&car之家案例
查看页面源码# 案例"""1. 提取页面源代码2. 解析页面源代码,提取数据"""import requestsfrom pyquery import PyQueryf = open("qingchezhijia.csv",mode='w',encoding='utf-8') # 创建文件def get_page_source(url): # 定义函数 访问页面 resp = requests.get(url) resp.encoding = "gbk" #原创 2022-02-01 12:03:29 · 306 阅读 · 0 评论 -
#Python&&pyquery库
安装 => pyquery库案例from pyquery import PyQuery# html = """# <ul># <li class="aaa"><a href="http://www.google.com">谷歌</a></li># <li class="aaa"><a href="http://www.baidu.com">百度</a>原创 2022-01-28 22:06:07 · 624 阅读 · 0 评论 -
#Python&&xpath解析及案例演示
解析 = > xpath(含义)安装相应的库案例 =>加深理解印象from lxml import etree# 如果pychar报错,可以考虑这种导入方式# from lxml import html# etree = html.etree# import xml.etree.ElementTree as ETxml = """<book> <id>1<id> <name>野花遍地香</name&原创 2022-01-28 21:54:38 · 345 阅读 · 0 评论 -
#Python&bs4及(优美图库)案例实战
bs4介绍及案例# 安装bs4# pip install bs4from bs4 import BeautifulSouphtml = """<ul> <li><a href="zhangwuji.com">张无忌</a></li> <li id="abc"><a href="zhouxingchi.com">周某某</a></li> <li>原创 2022-01-26 14:51:22 · 290 阅读 · 0 评论 -
#Python&CSS选择器及样式效果
css选择器简略<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <style> #abc{ color: pink; } li{ border: 1px solid red;原创 2022-01-26 14:45:56 · 72 阅读 · 0 评论 -
#Python&HTML基础语法入门
介绍原创 2022-01-26 13:25:56 · 102 阅读 · 0 评论 -
#Python&豆瓣&翻页
案例import requestsimport reurl = “https://movie.douban.com/top250”csv 是表示数据与逗号隔开f = open(“top250.csv”,mode=‘w’,encoding=‘utf-8’)headers = {“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121原创 2022-01-26 10:52:44 · 193 阅读 · 0 评论 -
Python&re模块&提取分组数据
初识re模块和re提取分组数据案例介绍import re# 匹配 2个a# result = re.findall("a","我是一个abcdeafg")# print(result)# result = re.findall(r"\d+", "我今年18岁,我有20000000块")# print(result)# 这个是重点,多多练习# result = re.finditer(r"\d+", "我今年18岁,我有20000000块")# # print(result)#原创 2022-01-26 10:24:58 · 1021 阅读 · 0 评论 -
#Python(数据解析)概述实例演示
可以有下面网址进行验证加深印象网址:https://tool.oschina.net/regex/介绍提取符作用及含义原创 2022-01-25 15:17:48 · 63 阅读 · 0 评论 -
Python&requests模块安装基本使用及替代国内源
requests 介绍安装过程安装成功遇到其它特殊情况下,安装不了,可以选择国内的源如下:1、临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package永久更改pip源1 pip install pip -U2 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple如果您到 pip 默认源的网络连接较差,临时原创 2022-01-25 14:58:47 · 387 阅读 · 0 评论 -
# Python#请求HTTP协议&POST和get分别请求方式介绍
如图所示原创 2022-01-25 14:43:06 · 1482 阅读 · 0 评论 -
#Python&web请求演示图片
# 需要知道是怎么一个请求过程 介绍: 演示图操作流程原创 2022-01-25 14:35:37 · 81 阅读 · 0 评论 -
#Python&requests=>入门实战案例篇
# 用法一:requestst案例一import requests# 爬取百度的页面源代码url = "http://www.baidu.com"resp = requests.get(url)resp.encoding = "utf-8"print(resp.text) # 拿到百度页面源代码上篇案例是调用lib库来爬取百度网页信息,跟这次会有差异,其它略略……案例二import requestscontent = input("请输入你要检索的内容:")url = f"原创 2022-01-25 14:16:45 · 345 阅读 · 0 评论 -
Python#爬虫&调用lib库&requests介绍
开撸第一个代码图片过程:实战案例# url 网址 lib库 request 请求 import 导入 urlopen 网址 打开from urllib.request import urlopen# url = "http://www.baidu.com" # 百度网址源码url = "https://www.dy2018.com/" # 电影天堂网站网址 -> 源码resp = urlopen(url)# 搜所 charset => "utf-8"# pri原创 2022-01-25 12:15:27 · 311 阅读 · 0 评论 -
Python&爬虫概念
什么是爬虫? 不知道各位是否遇到过这样的需求.就是我们总是希望能够保存互联网上的一些重要的数据信息为己所用比如: 在浏览到一些优秀的让人血脉喷张的图片时,总想保存起来留为日后做桌面上的壁纸 ”在浏览到一些重要的数据时(各行各业),希望保留下来日后为自己进行各种销售行为增光添彩。在浏览到一些奇奇怪怪的劲爆视频时,希望保存在硬盘里供日后慢慢品鉴 在浏览到一些十分优秀的歌声曲目时,希望保存下来供我们在烦闷的生活中增添一份精彩那么恭喜你本课程将十分的适合于你.因为爬虫就是通过编原创 2022-01-25 11:54:26 · 74 阅读 · 0 评论