2019年08月_XIAOTWOB

原创 css 选择器

https://www.runoob.com/cssref/css-selectors.htmlcss选择器用于选择你想要的元素的样式的模式。.intro：选择所有class='intro'的元素#firstname：选择所有id=‘firstname’的元素*：选择所有元素p:选择所有<p>元素div,p：选择所有<div>元素和<p>元素div...

2019-08-31 21:20:51 272

原创 Python一些字符串方法

1、center（）对一个字符串进行对齐。使用指定的字符进行对齐（默认为空白）。语法：str.center(length,fillchar)length是字符串的长度（必需参数）fillchar是指定填充的字符（可选参数）2、count（）返回一个特定值在字符串中出现的次数。语法：str.count(value,start,end)value是待搜索的目标子串（必需参数）start、...

2019-08-30 18:51:09 112

原创 A/B test

转载自公众号：数据管道，作者：爱德宝器1、A/B test是什么A/B测试（也成为分割测试或桶测试）是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。A/B测试本质上是一个实验，其中页面的两个或多个变体随机显示给用户，统计分析确定哪个变体杜宇给定的转换目标（指标如CTR）效果更好。2、A/B test工作原理在A/B test中，你可以设置访问网页或应用程序屏幕并对其...

2019-08-29 18:01:34 619

原创 Selenium的基本使用

Selenium（对位于elements的源码进行操作）自动化测试工具，支持多种浏览器爬虫中主要用来解决JavaScript渲染的问题安装 pip3 install selenium基本使用声明浏览器对象from selenium import webdriver实例化浏览器对象browser = webdriver.Firefox()browser = webdriver.Ch...

2019-08-29 10:52:14 156

原创 Python中的yield

摘自公众号–恋习Python，作者丁彦军以及https://www.runoob.com/python3/python3-iterator-generator.html一、迭代器（iterator）迭代是Python最强大的功能之一，是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代...

2019-08-29 10:08:50 107

原创正则表达式

re.match从字符串的开始位置进行匹配，起始位置不匹配则停止最常规的匹配re.match(正则表达式字符串，待匹配对象，匹配模式)import recontent='hello 123 4567 world'result=re.match('^hello\s\d{3}\s\d{4}\sworld$',content)print(result)print(type(result)...

2019-08-28 17:50:05 126

原创 requests库

response = requests.get(url) 得到的是响应类型response.text 得到的是字符串类型response.json()与json.loads(response.text)得到的结果是一样的，都是字典类型响应类型可以直接调用json()跟loads调用response.text类型的效果是一样的，但是两者的参数不同获取二进制数据response = requ...

2019-08-28 15:12:32 236

原创爬虫相关基础知识

摘自《Python3网络爬虫开发实战》崔庆才著08-271、cookie和session都用来保存状态信息，都是保存客户端状态的机制，他们都是为了解决HTTP无状态的问题所做的努力。对于爬虫开发来说，我们更关注的是cookie，因为cookie将状态保存在客户端，session将状态保存在服务器端。cookie是服务器在本地机器上存储的小段文本并随没一个请求发送至同一个服务器。网络服务器用...

2019-08-27 16:05:10 280

原创 pandas入门

摘自Wes McKinney著唐学韬等译的《利用Python进行数据分析》

2019-08-23 11:04:31 206

原创 NumPy基础：数组和矢量计算

NumPy(Numerical Python)是高性能科学计算和数据分析的基础包。部分功能如下：1.ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。2.用于对整组数据进行快速运算的标准数学函数（无需编写循环）。3.用于读写磁盘数据的工具以及用于操作内存映射文件的工具。4.线性代数、随机数生成以及傅里叶变换功能。5.用于集成由C、C++、Fortan等语言编...

2019-08-22 19:41:07 381

原创爬取百度贴吧

#这里调用的是requests模块import requestsclass TiebaSpider(): #定义一个TiebaSpider类 def __init__(self,tieba_name): #定义贴吧名字 self.tieba_name=tieba_name #组合得到要爬取的url self.url_temp...

2019-08-22 13:09:20 253

原创静态页面与动态页面

静态网页：（1）静态网页不能简单地理解成静止不动的网页，它主要指的是网页中没有程序代码，只有HTML（即：超文本标记语言），一般后缀为.html,.htm,或者.xml等。虽然静态网页的页面一旦做成，内容就不会再改变了。但是，静态网页也包括一些能动的部分，这些主要是一些GIF动画等（2）静态网页的打开，用户可以直接双击，并且不管任何人任何时间打开的页面的内容都是不变的。动态网页：（1）动态...

2019-08-21 20:14:28 1872

在痴海的公众号看到了170道爬虫相关的题目，也参考了一些大佬的答案（主要是葫芦娃的爷爷，https://blog.csdn.net/qq_20728575/article/details/91385378），整理如下～1.在读文件操作的时候会使用 read、readline 或者 readlines，简述它们各自的作用答：read将整个文本都读取为一个字符串，占用内存大，readline读取为...

2019-08-21 18:43:22 319

原创 python面试题（基础部分）

python面试题语言特性1.Python与其他语言的区别简洁，优雅，省略了各种大括号和分号；解释型语言，运行是一行一行的解释，并运行，所以代码的调试很方便，开发效率高作为开源的语言，具有数量众多的优秀的第三方库缺点：执行速度不够快，但是可以嵌入c\c++c代码；GIL，使用multiprocessing替代thread，增加线程的优先级，对并行计算性能较高的程序可以考虑把核心部分写...

2019-08-21 10:15:35 282

XIAOTWOB的博客