xwnsz-CSDN博客

原创 Transformer详解及Pytorch实现

Attention Is All You Need——“目前主要的序列转导模型基于编码器-解码器中配置的复杂循环神经网络或卷积神经网络。但通过注意力机制连接编码器和解码器可以大幅改善模型性能。我们提出了一种新的简单网络架构，它叫 Transformer，它完全基于注意力机制，完全省去了循环和卷积。”（Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017).

2025-03-26 22:42:09 925 2

原创 Pytorch与深度学习基础

Pytorch与深度学习基础前言Pytorch介绍导入Pytorch第一章：数据操作第一节：什么是张量？第二节：创建第一个张量第三节：张量的创建方法通过列表来创建自定义张量通过Numpy创建张量通过randn方法创建随机张量通过逻辑运算符构建二元张量一些特殊的张量创建高维张量的创建第四节：张量的属性张量的维度访问张量的属性第五节：改变张量的形状第六节：张量的运算张量之间的运算广播机制一个张量的元素求和一个张量的元素求平均值两个一维张量（向量）的内积（点积）二维张量（矩阵）的运算矩阵的转置矩阵的乘法矩阵的范数

2025-01-15 18:56:18 1108 2

原创 Pandas库基础

Pandas 基于 NumPy 开发，可以与其它第三方科学计算支持库完美集成。Pandas 的主要数据结构是 Series（一维数据）与 DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。python里的numpy用于处理数值类型数据，而pandas可以处理更多类型的数据如字符串，时间序列等等。下面是pandas最常用的两个类：Series和DataFrame。

2024-08-05 22:58:45 2085

原创 numpy库

一.引入numpy：`import numpy as np`二.使用array方法创建数组：1.numpy的array方法，用于创建自定义数组(1)创建一个一维数组,对于这种整数，数据类型默认int64，可自行指定（见下）arr = np.array([1,2,3],dtype='int32') print arr执行：[1, 2, 3](2)创建一个二维数组arr = np.array([[1,2,3],[4,5,6]]) print arr执行：[[1, 2,

2021-10-17 18:00:49 689

原创协程asyncio库

什么是协程：在等待一个异步函数执行中，可以挂起去执行另一个，多个异步函数，哪个没有挂起（执行到不需要等待的部分）就执行哪个，直到无序地执行完所有异步函数。多个函数协作完成。导入协程库：import asyncio其下有两个重要的声明：async：用来声明函数是异步函数。只有异步函数才能被挂起去执行其他函数（不用非等他执行完才去执行其他的）await：声明此处挂起。此时将去执行其他异步函数一.基本操作1.使用async声明要运行的函数是异步函数。以async修饰的函数返回值是一个协程对象async

2021-10-16 10:56:03 275

原创 jupyter指南

1.添加一行cell：选中框，按下a(在下方添加)或者b(在上方添加)删除：x2.修改cell的模式：m：修改成markdown笔记模式y：修改成code代码模式3.执行cell：shift+enter选中框按tab：自动补全打开帮助文档：选中未知函数按shift+tab...

2021-10-16 10:46:47 945

原创 Python 的print输出加上颜色的实现方法

字体背景颜色参数---------------------------------------30 40 黑色31 41 红色32 42 绿色33 43 黄色34 44 蓝色35 45 紫红色36 46 青蓝色37 47 白色显示方式-------------------------0 终端默认设置1 高亮显示4 使用下划线5 闪烁7 反白显示8 不可见将参数写入下方对应区域print('\033[显示方式;字体色;背景色m{文本}\033[0m')# 三种设置都可

2021-07-31 15:35:33 613

原创 selenuim库规避检测

适用于9x版本谷歌浏览器。添加规则：option = webdriver.ChromeOptions()option.add_argument("--disable-blink-features=AutomationControlled")

2021-07-29 15:34:42 182

原创 selenium库进行浏览器自动化测试

selenuim最初是一个自动化测试工具，在爬虫中使用它是为了解决requests无法直接执行动态加载JavaScript代码的问题。它通过浏览器驱动程序直接驱动浏览器操作，也可以解决一部分反爬虫的问题。注意，selenium必须搭配time库使用。在用selenium做JavaScript渲染时，要用time.sleep()来延缓几秒确保渲染完成。1.引入selenium库下的webdriver类：from selenium import webdriver2.实例化一个浏览器对象命名为bro（这

2021-07-29 15:34:06 348 1

原创异步爬虫库aiohttp

在已获得url列表的情况下，异步请求这些url，则应用aiohttp模块而非requests1.引入aiohttp模块：import aiohttp2.异步使用aiohttp模块下的ClientSession()方法，命名为session，再异步使用session下的get/post方法请求url并命名为res（此处有阻塞，应加await挂起）,as下的res后面不能直接跟.text()，所以后面再跟page_text=await res.text()（此处仍需挂起）（还能用text()返回字符串形式

2021-07-29 15:30:30 360

原创 python计时

首先引入time库计时起始处：start_time = time.time()计时结束处：end_time = time.time()打印所用时间：print(’%d second’% (end_time-start_time)%d意为将引号内字符串放于最后，second是单位，%意为取整

2021-07-28 15:57:14 153

原创多进程池pool实现异步

首先需要异步进行的那部分封装为一个函数，且有返回值（也可以没有）需要异步处理的数据封装为一个可迭代对象，比如一个列表1.引入进程池模块multiprocessing.dummy对应的pool类：from multiprocessing.dummy import Pool2.实例化一个进程池对象。pool()括号中写入创建进程个数（应大于或等于异步函数个数,小于等于CPU核心数）：pool = Pool(4)3.使用pool的map对象将函数和数据写入进程池：a=pool.map(想要异步执行的函数

2021-07-28 15:56:41 289

原创 session携带cookie

1.创建一个session对象：session = requests.Session()2.在不需要使用cookie处取得cookie：requests.get(…)或requests.post(…)，把requests替换为session（cookie就会被存储在session中）3.在需要使用cookie处用session对象替换：requests.get(…)或requests.post(…)，把requests替换为session（携带了cookie）...

2021-07-28 15:56:10 278

原创获得到的中文字符乱码解决方法

首先r应为字符串对象。比如r=’ H嬝H吚uH?’若r乱码，可以用r = r.encode(‘iso-8859-1’).decode(‘gbk’)解决

2021-07-28 15:54:59 115

原创 xpath库简述

1.导入xpath的解析库etree: from lxml import etree2.实例化一个etree对象命名为tree，且将被解析的源码加载到该对象中，使用.parse()方法导入html文件 tree = etree.parse(‘文件名’)或者导入requests请求到的页面 tree = etree.HTML(page_text)（只能解析text形式，可用page_text = page_text.text转化）3.对源码内部解析，使用.xpath()方法，返回一个列表，列表元素为

2021-07-28 15:54:32 813