Python
XIAOTWOB
在世界面前,堂堂正正的站立;
永远永远不再畏惧,即使在寒冷的街头
展开
-
0318工作备忘(关于python调用sql语句)
python调用sql语句的过程中,提示ORA-00911:无效字符。查看python语句,以及sql语句的正确性之后,发现是sql语句的结束符号(;)造成的报错。去掉;之后,执行正常。...原创 2020-03-18 16:59:13 · 153 阅读 · 0 评论 -
pandas简介
转自pandas中文网以下是 pandas 做够胜任的一些事情:在浮点和非浮点数据中轻松处理缺失数据(表示为NaN)。大小可变性:可以从DataFrame和更高维度的对象中插入和删除。自动和显式数据对齐:对象可以明确地与一组标签对齐,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据强大,灵活的**组(group by)**功能,可对数据...原创 2019-09-12 10:39:25 · 267 阅读 · 0 评论 -
Python语言特性
1、迭代器与生成器 迭代器是遵循迭代协议的对象,用户可以使用iter()以从任何序列得到迭代器(如list,tuple,dictionary,set等) 生成器(Generator),只是在需要返回数据的时候使用yield语句。每次next()语句被调用时,生成器会返回它脱离的位置(它会记忆语句最后一次执行的位置和所有的数据值。)生成器能做到迭代器能做的所有事...原创 2019-09-11 15:33:03 · 197 阅读 · 0 评论 -
numpy、pandas基础补充
三层结构容器层:canvas、figure、axes画板层(canvas):用户接触不到画布层(figure):plt.figure(figsize=(),dpi=) figsize:画布大小 dpi:清晰度plt.savefig('文件名'):以文件名的形式保存一个画布可以包含多个绘图区绘图区(axes):plt.subplots()辅助显示层:图例(legend)、网...原创 2019-09-10 09:24:07 · 906 阅读 · 0 评论 -
验证码的识别
利用OCR技术识别图形验证码的方法OCR,即Optical Character Recognition,光学字符识别是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesserocr是Python的一个ocr识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tes...原创 2019-09-01 21:40:00 · 183 阅读 · 0 评论 -
关于Selenium的延时等待
在Selenium中,get()方法会在网页框架加载结束后结束执行。此时如果获得网页源代码,可能并不是浏览器完全加载完成的页面,如果某些页面有额外的Ajax请求,我们在网页源代码中也不一定能成功获取到。所以需要延时等待一定的时间,确保节点已经完全加载出来。这里的等待方式有两种,一种是隐式等待,一种是显式等待。隐式等待当使用隐式等待执行测试的时候,如果Selenium没有在DOM中找到节点将继...原创 2019-09-01 11:18:34 · 931 阅读 · 0 评论 -
css 选择器
https://www.runoob.com/cssref/css-selectors.htmlcss选择器用于选择你想要的元素的样式的模式。.intro:选择所有class='intro'的元素#firstname:选择所有id=‘firstname’的元素*:选择所有元素p:选择所有<p>元素div,p:选择所有<div>元素和<p>元素div...原创 2019-08-31 21:20:51 · 272 阅读 · 0 评论 -
Python一些字符串方法
1、center()对一个字符串进行对齐。使用指定的字符进行对齐(默认为空白)。语法:str.center(length,fillchar)length是字符串的长度(必需参数)fillchar是指定填充的字符(可选参数)2、count()返回一个特定值在字符串中出现的次数。语法:str.count(value,start,end)value是待搜索的目标子串(必需参数)start、...原创 2019-08-30 18:51:09 · 112 阅读 · 0 评论 -
Selenium的基本使用
Selenium(对位于elements的源码进行操作)自动化测试工具,支持多种浏览器爬虫中主要用来解决JavaScript渲染的问题安装 pip3 install selenium基本使用声明浏览器对象from selenium import webdriver实例化浏览器对象browser = webdriver.Firefox()browser = webdriver.Ch...原创 2019-08-29 10:52:14 · 156 阅读 · 0 评论 -
Python中的yield
摘自公众号–恋习Python,作者丁彦军以及https://www.runoob.com/python3/python3-iterator-generator.html一、迭代器(iterator)迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代...原创 2019-08-29 10:08:50 · 107 阅读 · 0 评论 -
正则表达式
re.match从字符串的开始位置进行匹配,起始位置不匹配则停止最常规的匹配re.match(正则表达式字符串,待匹配对象,匹配模式)import recontent='hello 123 4567 world'result=re.match('^hello\s\d{3}\s\d{4}\sworld$',content)print(result)print(type(result)...原创 2019-08-28 17:50:05 · 136 阅读 · 0 评论 -
requests库
response = requests.get(url) 得到的是响应类型response.text 得到的是字符串类型response.json()与json.loads(response.text)得到的结果是一样的,都是字典类型响应类型可以直接调用json()跟loads调用response.text类型的效果是一样的,但是两者的参数不同获取二进制数据response = requ...原创 2019-08-28 15:12:32 · 237 阅读 · 0 评论 -
爬虫相关基础知识
摘自《Python3网络爬虫开发实战》 崔庆才著08-271、cookie和session都用来保存状态信息,都是保存客户端状态的机制,他们都是为了解决HTTP无状态的问题所做的努力。对于爬虫开发来说,我们更关注的是cookie,因为cookie将状态保存在客户端,session将状态保存在服务器端。cookie是服务器在本地机器上存储的小段文本并随没一个请求发送至同一个服务器。网络服务器用...原创 2019-08-27 16:05:10 · 281 阅读 · 0 评论 -
NumPy基础:数组和矢量计算
NumPy(Numerical Python)是高性能科学计算和数据分析的基础包。部分功能如下:1.ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。2.用于对整组数据进行快速运算的标准数学函数(无需编写循环)。3.用于读写磁盘数据的工具以及用于操作内存映射文件的工具。4.线性代数、随机数生成以及傅里叶变换功能。5.用于集成由C、C++、Fortan等语言编...原创 2019-08-22 19:41:07 · 382 阅读 · 0 评论