Python自学记录
A088菠萝
小白自学Python
展开
-
Python MongoDB方法类
【代码】Python MongoDB方法类。原创 2023-02-23 17:13:23 · 144 阅读 · 0 评论 -
Pandas--运算符与运算函数
常用的pandas运算函数原创 2022-10-16 21:16:33 · 730 阅读 · 0 评论 -
Python正则表达式中的re.S的作用
在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n”。看如下代码:import rea = '''asdfhellopass: 123 worldaf '''b = re.findall('hello(.*?)world',a)c = re.findall('hello(.*?)world',a,re.S)print 'b is ' , bprint 'c is ' , c运行结果如下:转载 2022-01-19 16:32:04 · 169 阅读 · 0 评论 -
Python自学记录--实战1--爬取美女图片
目标网址:http://www.netbian.com/调用模块import requestsfrom lxml import etree# 设置uaheader = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 " "Safari/537.36"}Page =原创 2021-10-06 20:48:08 · 262 阅读 · 2 评论 -
Python自学记录--百度api识别验证码,模拟登陆
之前看教程学习用超级鹰,根据论坛师兄们指点尝试用百度的智能识别,可以实现,但是成功率不高零基础小白自学中,求指点!目标网站:https://www.gushiwen.cn/#baidu-aip 智能识别验证码from aip import AipOcrimport requestsfrom lxml import etreeimport time """ 你的 APPID AK SK """APP_ID = 'APP_ID'API_KEY = 'API_KEY'SECRET原创 2021-10-05 16:14:01 · 536 阅读 · 1 评论 -
Python自学记录--初级滑块,邮箱例子
from selenium import webdriverfrom time import sleepfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ecfrom selenium.webdriver.common.by import Byfrom selenium.webdriver import Acti.原创 2021-10-03 22:55:07 · 182 阅读 · 0 评论 -
Python自学记录--验证码识别模拟登陆
#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5from lxml import etreeimport timet = int(round(time.time() * 1000)) #时间戳class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self..原创 2021-10-02 20:11:38 · 136 阅读 · 0 评论 -
Python自学记录--多线程糗事百科爬虫
#线程库import threading#队列import queueimport requestsimport timefrom lxml import etree#采集网页线程--爬取段子列表所在的网页,放进队列class Thread1(threading.Thread): def __init__(self, threadName,pageQueue,dataQueue): threading.Thread.__init__(self) .原创 2021-09-26 22:34:18 · 97 阅读 · 0 评论 -
Python自学记录--线程锁
import threading#线程锁:当一个线程设置锁后,只有等到释放锁后,才能调度其他线程lock=threading.Lock() #创建锁num=100def run(name): global num num-=1 lock.acquire() #设置锁 print("线程",name,"执行了,目前num为:",num) lock.release() #释放锁for i in range(1,101): t=threading..原创 2021-09-26 11:56:47 · 76 阅读 · 0 评论 -
Python自学记录--多线程实现
#多线程实现import threadingimport timedef run(name): print(name,"执行了任务!") time.sleep(5)#程序执行时,程序本身就是一个线程,称为主线程#手动创建的线程,成为子线程#主线程执行中不会等待子线程执行完毕,会直接执行后面的代码#创建线程对象t1=threading.Thread(target=run,args=("t1",))t2=threading.Thread(target=run,args=.原创 2021-09-26 11:56:04 · 64 阅读 · 0 评论 -
Python自学记录--多进程实现
#多进程:一个程序运行过程中,产生了多个进程#多进程实现#n个正在运行的程序---至少n个进程#1个程序----可能只有一个进程,也可能有多个进程#引入进程类from multiprocessing import Processimport timedef run1(): print("任务执行了1!") time.sleep(5)def run2(): print("任务执行了2!") time.sleep(5)def run3(): .原创 2021-09-26 11:55:03 · 89 阅读 · 0 评论 -
Python自学记录--bs4
#BeautifulSoup模块简介和安装from bs4 import BeautifulSoupimport re#CSS 选择器:BeautifulSoup4#和lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器#主要的功能也是如何解析和提取 HTML/XML 数据。#模块下载安装:pip install bs4#基础例子html = """<html><head><title>The Dormouse's .原创 2021-09-25 21:31:12 · 72 阅读 · 0 评论 -
Python自学记录--爬取贴吧图片
#图片爬虫import urllibimport urllib.requestfrom lxml import etreeclass Spider(object): def __init__(self): self.tiebaName="java" self.beginPage=1 self.endPage=3 self.url="http://tieba.baidu.com/f?" self.ua_head.原创 2021-09-25 18:08:10 · 202 阅读 · 0 评论 -
Python爬取网络段子
小白自学Python,部分段子网页无法访问,使用 try: 处理异常需要很长时间,期待大佬指点#爬取糗事百科段子import requestsfrom lxml import etree#设置UAheaders={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}#设置需要爬取页数..原创 2021-09-24 22:49:31 · 197 阅读 · 0 评论 -
Python自学记录--数据清洗-xpath()表达式
#解析字符串形式htmltext ='''<div> <ul> <li class="item-0"><a href="link1.html">张三</a></li> <li class="item-1"><a href="link2.html">李四</a></li> <li class="item-inactiv.原创 2021-09-24 18:09:06 · 235 阅读 · 0 评论 -
Python自学记录--爬取豆瓣电影排名
#爬取网址电话号码import reimport urllib.request#确定数量page=input("请输入您要查询的数量:")#UAheaders={"User-Agent":"Mozilla/5.0 \(Windows NT 10.0; WOW64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome/86.0.4240.198 \Safari/537.36"}#排名链接url="https://movie.douba.原创 2021-09-24 14:43:17 · 182 阅读 · 0 评论 -
Python自学记录--爬取网址电话号码
#爬取网址电话号码import reimport requestsheaders={"User-Agent":"Mozilla/5.0 \(Windows NT 10.0; WOW64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome/86.0.4240.198 \Safari/537.36"}url="http://changyongdianhuahaoma.bmcx.com/"response=requests.get(url,he.原创 2021-09-24 13:47:43 · 1017 阅读 · 0 评论