自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (1)
  • 收藏
  • 关注

原创 numpy数组模块

一.引入numpy:`import numpy as np`二.使用array方法创建数组:1.numpy的array方法,用于创建自定义数组(1)创建一个一维数组,对于这种整数,数据类型默认int64,可自行指定(见下)arr = np.array([1,2,3],dtype='int32') print arr执行:[1, 2, 3](2)创建一个二维数组arr = np.array([[1,2,3],[4,5,6]]) print arr执行:[[1, 2,

2021-10-17 18:00:49 510

原创 协程asyncio库

什么是协程:在等待一个异步函数执行中,可以挂起去执行另一个,多个异步函数,哪个没有挂起(执行到不需要等待的部分)就执行哪个,直到无序地执行完所有异步函数。多个函数协作完成。导入协程库:import asyncio其下有两个重要的声明:async:用来声明函数是异步函数。只有异步函数才能被挂起去执行其他函数(不用非等他执行完才去执行其他的)await:声明此处挂起。此时将去执行其他异步函数一.基本操作1.使用async声明要运行的函数是异步函数。以async修饰的函数返回值是一个协程对象async

2021-10-16 10:56:03 197

原创 jupyter指南

1.添加一行cell:选中框,按下a(在下方添加)或者b(在上方添加)删除:x2.修改cell的模式:m:修改成markdown笔记模式y:修改成code代码模式3.执行cell:shift+enter选中框按tab:自动补全打开帮助文档:选中未知函数按shift+tab...

2021-10-16 10:46:47 747

原创 为什么Python的input()函数一般要包含在eval()里

input函数获得的变量是字符串形式,如果要应用int的数字形式,则需要转换。而用eval(input())则可以直接获得int形式。eval()函数的作用就是去掉字符串的引号。

2021-09-22 09:33:08 4548

原创 Python 的print输出加上颜色的实现方法

字体背景颜色参数---------------------------------------30 40 黑色31 41 红色32 42 绿色33 43 黄色34 44 蓝色35 45 紫红色36 46 青蓝色37 47 白色显示方式-------------------------0 终端默认设置1 高亮显示4 使用下划线5 闪烁7 反白显示8 不可见将参数写入下方对应区域print('\033[显示方式;字体色;背景色m{文本}\033[0m')# 三种设置都可

2021-07-31 15:35:33 549

原创 selenuim库规避检测

适用于9x版本谷歌浏览器。添加规则:option = webdriver.ChromeOptions()option.add_argument("--disable-blink-features=AutomationControlled")

2021-07-29 15:34:42 118

原创 selenium库在爬虫中应用

selenuim最初是一个自动化测试工具,在爬虫中使用它是为了解决requests无法直接执行动态加载JavaScript代码的问题。它通过浏览器驱动程序直接驱动浏览器操作,也可以解决一部分反爬虫的问题。注意,selenium必须搭配time库使用。在用selenium做JavaScript渲染时,要用time.sleep()来延缓几秒确保渲染完成。1.引入selenium库下的webdriver类:from selenium import webdriver2.实例化一个浏览器对象命名为bro(这

2021-07-29 15:34:06 236

原创 异步爬虫库aiohttp

在已获得url列表的情况下,异步请求这些url,则应用aiohttp模块而非requests1.引入aiohttp模块:import aiohttp2.异步使用aiohttp模块下的ClientSession()方法,命名为session,再异步使用session下的get/post方法请求url并命名为res(此处有阻塞,应加await挂起),as下的res后面不能直接跟.text(),所以后面再跟page_text=await res.text()(此处仍需挂起)(还能用text()返回字符串形式

2021-07-29 15:30:30 197

原创 python计时

首先引入time库计时起始处:start_time = time.time()计时结束处:end_time = time.time()打印所用时间:print(’%d second’% (end_time-start_time)%d意为将引号内字符串放于最后,second是单位,%意为取整

2021-07-28 15:57:14 102

原创 多进程池pool实现异步

首先需要异步进行的那部分封装为一个函数,且有返回值(也可以没有)需要异步处理的数据封装为一个可迭代对象,比如一个列表1.引入进程池模块multiprocessing.dummy对应的pool类:from multiprocessing.dummy import Pool2.实例化一个进程池对象。pool()括号中写入创建进程个数(应大于或等于异步函数个数,小于等于CPU核心数):pool = Pool(4)3.使用pool的map对象将函数和数据写入进程池:a=pool.map(想要异步执行的函数

2021-07-28 15:56:41 228

原创 session携带cookie

1.创建一个session对象:session = requests.Session()2.在不需要使用cookie处取得cookie:requests.get(…)或requests.post(…),把requests替换为session(cookie就会被存储在session中)3.在需要使用cookie处用session对象替换:requests.get(…)或requests.post(…),把requests替换为session(携带了cookie)...

2021-07-28 15:56:10 230

原创 获得到的中文字符乱码解决方法

首先r应为字符串对象。比如r=’ H嬝H吚uH?’若r乱码,可以用r = r.encode(‘iso-8859-1’).decode(‘gbk’)解决

2021-07-28 15:54:59 74

原创 xpath库简述

1.导入xpath的解析库etree: from lxml import etree2.实例化一个etree对象命名为tree,且将被解析的源码加载到该对象中,使用.parse()方法导入html文件 tree = etree.parse(‘文件名’)或者导入requests请求到的页面 tree = etree.HTML(page_text)(只能解析text形式,可用page_text = page_text.text转化)3.对源码内部解析,使用.xpath()方法,返回一个列表,列表元素为

2021-07-28 15:54:32 706

原创 字符串的替换

描述Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。语法replace()方法语法:str.replace(old, new[, max])参数old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次返回值返回字符串中的 old(旧字符串) 替换成 new(新字符串)后生成的新字符串,如果指定第三个参数max,则替换

2021-07-28 15:53:44 6374

原创 将变量储存的字符串转化为原生字符串

repr(变量名)

2021-07-28 15:53:12 126

原创 bs4库简述

1.首先用response=requests.get(url=url).content.decode(‘utf-8’)来获得网页源码。要先转为content或text(易乱码)格式才能被bs4解析2.soup=BeautifulSoup(response.‘lxml’)解析源码,解析器为lxml(第三方),还有第一方解析器html.parser。3.辨识html文件的标签和属性和所属文本内容。用下面html文件(部分)演示。<div class="song"> <p>李清照

2021-07-28 15:52:36 563

原创 正则表达式在爬虫中的应用

正则最好只用于解析无标签的js部分,不建议解析中文。有标签的还是用xpath和bs4例如解析某一标签,提取出同类标签,此时应该看标签哪部分是固定的,哪部分是批量化的,以及自己要的内容。同时以固定内容作为标签头尾。如下标签进行正则提取<div class="thumb"><a href="/article/124427049" target="_blank"><img src="//pic.qiushibaike.com/system/pictures/12442/12

2021-07-28 15:49:43 497

原创 用pyinstaller打包为exe文件

安装pyinstaller首先要安装第三方库pyinstaller,打开dos窗口输入安装命令如下。pip install pyinstaller执行打包命令输入命令,pyinstaller -F 绝对路径。(-F表示覆盖打包,如果多次进行修改并打包,执行这个命令就是最新的)pyinstaller -F X:\project\myProject\TransferToDecimal.py执行完命令之后会生成几个文件夹,pycache,dist和build。可能出现的问题但是我就遇到了这样的问题

2021-07-28 15:39:40 407

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除