python
XIAOxiansheng98
这个作者很懒,什么都没留下…
展开
-
Python-用户代理池
用户代理池概述所谓用户代理池就是将不同的用户代理组建为一个池子,随后随机调用。防反扒效果好。#用户代理池的构建import urllib.requestimport reimport random #随机数组模块uapools=[ "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0" "Mozilla/5.0 (Windows NT 10.0; WOW64) App原创 2020-07-17 15:18:13 · 419 阅读 · 0 评论 -
Python-爬取csdn博客首页
#爬取csdn博客首页import urllib.requestimport reurl="https://blog.csdn.net/"#浏览器伪装headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0")opener=urllib.request.b原创 2020-07-17 09:44:37 · 108 阅读 · 0 评论 -
python-糗事百科段子爬虫
#出版社名字爬取import reimport urllib.requestdata=urllib.request.urlopen("http://read.douban.com/provider/all").read().decode("utf-8")pat='<div class="name">(.*?)</div>'resoult=re.compile(pat).findall(data)fh=open("E:/Pycharm/pycharmcode/dream/原创 2020-07-11 16:23:26 · 107 阅读 · 0 评论 -
正则表达式
正则表达式1.定义:进行数据筛选的表达式2.原子原子是正则表达式中最基本的组成单位,每个正则表达式至少要包含一个原子。常见的原子类型有:普通字符非打印字符通用字符原子表import re#1.普通字符作为原子string="xiaokaimin"pat="min"resoult=re.search(pat,string)print(resoult)print("========================================")#2.非打印字符作为原子原创 2020-07-11 15:39:24 · 186 阅读 · 0 评论 -
python面向对象
#类和对象# class 类名:# 类里面的内容class cl1: passa=cl1() #实例化一个类#构造函数(构造方法)#在类的方法中必须加上self函数#构造函数实际意义:初始化#__init__(self,参数)class cl2: def __init__(self): print("I am cl2 self")b=cl2()#给类加上参数:给构造函数加上参数class cl3: def __init__(原创 2020-07-10 16:11:32 · 86 阅读 · 0 评论 -
文件的读取
正则表达式1.定义:进行数据筛选的表达式2.原子原子是正则表达式中最基本的组成单位,每个正则表达式至少要包含一个原子。常见的原子类型有:普通字符非打印字符通用字符原子表import re#1.普通字符作为原子string="xiaokaimin"pat="min"resoult=re.search(pat,string)print(resoult)print("========================================")#2.非打印字符作为原子原创 2020-07-11 10:27:19 · 78 阅读 · 0 评论