- 博客(20)
- 问答 (1)
- 收藏
- 关注
原创 Transformer详解及Pytorch实现
Attention Is All You Need——“目前主要的序列转导模型基于编码器-解码器中配置的复杂循环神经网络或卷积神经网络。但通过注意力机制连接编码器和解码器可以大幅改善模型性能。我们提出了一种新的简单网络架构,它叫 Transformer,它完全基于注意力机制,完全省去了循环和卷积。”(Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017).
2025-03-26 22:42:09
925
2
原创 Pytorch与深度学习基础
Pytorch与深度学习基础前言Pytorch介绍导入Pytorch第一章:数据操作第一节:什么是张量?第二节:创建第一个张量第三节:张量的创建方法通过列表来创建自定义张量通过Numpy创建张量通过randn方法创建随机张量通过逻辑运算符构建二元张量一些特殊的张量创建高维张量的创建第四节:张量的属性张量的维度访问张量的属性第五节:改变张量的形状第六节:张量的运算张量之间的运算广播机制一个张量的元素求和一个张量的元素求平均值两个一维张量(向量)的内积(点积)二维张量(矩阵)的运算矩阵的转置矩阵的乘法矩阵的范数
2025-01-15 18:56:18
1108
2
原创 Pandas库基础
Pandas 基于 NumPy 开发,可以与其它第三方科学计算支持库完美集成。Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。python里的numpy用于处理数值类型数据,而pandas可以处理更多类型的数据如字符串,时间序列等等。下面是pandas最常用的两个类:Series和DataFrame。
2024-08-05 22:58:45
2085
原创 numpy库
一.引入numpy:`import numpy as np`二.使用array方法创建数组:1.numpy的array方法,用于创建自定义数组(1)创建一个一维数组,对于这种整数,数据类型默认int64,可自行指定(见下)arr = np.array([1,2,3],dtype='int32') print arr执行:[1, 2, 3](2)创建一个二维数组arr = np.array([[1,2,3],[4,5,6]]) print arr执行:[[1, 2,
2021-10-17 18:00:49
689
原创 协程asyncio库
什么是协程:在等待一个异步函数执行中,可以挂起去执行另一个,多个异步函数,哪个没有挂起(执行到不需要等待的部分)就执行哪个,直到无序地执行完所有异步函数。多个函数协作完成。导入协程库:import asyncio其下有两个重要的声明:async:用来声明函数是异步函数。只有异步函数才能被挂起去执行其他函数(不用非等他执行完才去执行其他的)await:声明此处挂起。此时将去执行其他异步函数一.基本操作1.使用async声明要运行的函数是异步函数。以async修饰的函数返回值是一个协程对象async
2021-10-16 10:56:03
275
原创 jupyter指南
1.添加一行cell:选中框,按下a(在下方添加)或者b(在上方添加)删除:x2.修改cell的模式:m:修改成markdown笔记模式y:修改成code代码模式3.执行cell:shift+enter选中框按tab:自动补全打开帮助文档:选中未知函数按shift+tab...
2021-10-16 10:46:47
945
原创 Python 的print输出加上颜色的实现方法
字体背景颜色参数---------------------------------------30 40 黑色31 41 红色32 42 绿色33 43 黄色34 44 蓝色35 45 紫红色36 46 青蓝色37 47 白色显示方式-------------------------0 终端默认设置1 高亮显示4 使用下划线5 闪烁7 反白显示8 不可见将参数写入下方对应区域print('\033[显示方式;字体色;背景色m{文本}\033[0m')# 三种设置都可
2021-07-31 15:35:33
613
原创 selenuim库规避检测
适用于9x版本谷歌浏览器。添加规则:option = webdriver.ChromeOptions()option.add_argument("--disable-blink-features=AutomationControlled")
2021-07-29 15:34:42
182
原创 selenium库进行浏览器自动化测试
selenuim最初是一个自动化测试工具,在爬虫中使用它是为了解决requests无法直接执行动态加载JavaScript代码的问题。它通过浏览器驱动程序直接驱动浏览器操作,也可以解决一部分反爬虫的问题。注意,selenium必须搭配time库使用。在用selenium做JavaScript渲染时,要用time.sleep()来延缓几秒确保渲染完成。1.引入selenium库下的webdriver类:from selenium import webdriver2.实例化一个浏览器对象命名为bro(这
2021-07-29 15:34:06
348
1
原创 异步爬虫库aiohttp
在已获得url列表的情况下,异步请求这些url,则应用aiohttp模块而非requests1.引入aiohttp模块:import aiohttp2.异步使用aiohttp模块下的ClientSession()方法,命名为session,再异步使用session下的get/post方法请求url并命名为res(此处有阻塞,应加await挂起),as下的res后面不能直接跟.text(),所以后面再跟page_text=await res.text()(此处仍需挂起)(还能用text()返回字符串形式
2021-07-29 15:30:30
360
原创 python计时
首先引入time库计时起始处:start_time = time.time()计时结束处:end_time = time.time()打印所用时间:print(’%d second’% (end_time-start_time)%d意为将引号内字符串放于最后,second是单位,%意为取整
2021-07-28 15:57:14
153
原创 多进程池pool实现异步
首先需要异步进行的那部分封装为一个函数,且有返回值(也可以没有)需要异步处理的数据封装为一个可迭代对象,比如一个列表1.引入进程池模块multiprocessing.dummy对应的pool类:from multiprocessing.dummy import Pool2.实例化一个进程池对象。pool()括号中写入创建进程个数(应大于或等于异步函数个数,小于等于CPU核心数):pool = Pool(4)3.使用pool的map对象将函数和数据写入进程池:a=pool.map(想要异步执行的函数
2021-07-28 15:56:41
289
原创 session携带cookie
1.创建一个session对象:session = requests.Session()2.在不需要使用cookie处取得cookie:requests.get(…)或requests.post(…),把requests替换为session(cookie就会被存储在session中)3.在需要使用cookie处用session对象替换:requests.get(…)或requests.post(…),把requests替换为session(携带了cookie)...
2021-07-28 15:56:10
278
原创 获得到的中文字符乱码解决方法
首先r应为字符串对象。比如r=’ H嬝H吚uH?’若r乱码,可以用r = r.encode(‘iso-8859-1’).decode(‘gbk’)解决
2021-07-28 15:54:59
115
原创 xpath库简述
1.导入xpath的解析库etree: from lxml import etree2.实例化一个etree对象命名为tree,且将被解析的源码加载到该对象中,使用.parse()方法导入html文件 tree = etree.parse(‘文件名’)或者导入requests请求到的页面 tree = etree.HTML(page_text)(只能解析text形式,可用page_text = page_text.text转化)3.对源码内部解析,使用.xpath()方法,返回一个列表,列表元素为
2021-07-28 15:54:32
813
原创 字符串的替换
描述Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。语法replace()方法语法:str.replace(old, new[, max])参数old – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次返回值返回字符串中的 old(旧字符串) 替换成 new(新字符串)后生成的新字符串,如果指定第三个参数max,则替换
2021-07-28 15:53:44
6563
原创 bs4库简述
1.首先用response=requests.get(url=url).content.decode(‘utf-8’)来获得网页源码。要先转为content或text(易乱码)格式才能被bs4解析2.soup=BeautifulSoup(response.‘lxml’)解析源码,解析器为lxml(第三方),还有第一方解析器html.parser。3.辨识html文件的标签和属性和所属文本内容。用下面html文件(部分)演示。<div class="song"> <p>李清照
2021-07-28 15:52:36
644
原创 正则表达式在爬虫中的应用
正则最好只用于解析无标签的js部分,不建议解析中文。有标签的还是用xpath和bs4例如解析某一标签,提取出同类标签,此时应该看标签哪部分是固定的,哪部分是批量化的,以及自己要的内容。同时以固定内容作为标签头尾。如下标签进行正则提取<div class="thumb"><a href="/article/124427049" target="_blank"><img src="//pic.qiushibaike.com/system/pictures/12442/12
2021-07-28 15:49:43
577
1
原创 用pyinstaller打包为exe文件
安装pyinstaller首先要安装第三方库pyinstaller,打开dos窗口输入安装命令如下。pip install pyinstaller执行打包命令输入命令,pyinstaller -F 绝对路径。(-F表示覆盖打包,如果多次进行修改并打包,执行这个命令就是最新的)pyinstaller -F X:\project\myProject\TransferToDecimal.py执行完命令之后会生成几个文件夹,pycache,dist和build。可能出现的问题但是我就遇到了这样的问题
2021-07-28 15:39:40
514
1
空空如也
怎么用python代码获取浏览器请求头内的cookie?
2021-06-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人