Python
文章平均质量分 74
Python
来杯Sherry
这个作者很懒,什么都没留下…
展开
-
html(css、js、html、web)文件引用路径写法【flask】
1.常见的本地静态引入本地的css,js文件:比如文件路径:static/css/pintuer.css,那么路径应该这样写<link rel="stylesheet" href="{{ url_for('static',filename ='css/pintuer.css') }}">2.网上css、js文件3.本地templates模板引用3.内嵌的js代码中对templates模板的引用4.js文件中对templates模板的引用...原创 2020-12-26 17:33:12 · 3775 阅读 · 7 评论 -
基于PyPDF2实现自动化批量PDF文件合并【自动化】【PyPDF2】
手动合并PDF文件是一个繁琐且耗时的过程,特别是当需要合并大量文件时。自动化工具可以迅速完成这一任务,从而节省宝贵的时间,使用可视化工具。仍然无法摆脱全自动,仍需要人为干预去做文件选定,可参考使用以下代码做文件选定、合并,流程全自动化处理。原创 2024-05-16 16:50:08 · 143 阅读 · 0 评论 -
怎么通过isinstance(Obj,Class)验证?【isinstance】
序列化保存,再使用原来项目的读取、检索函数,当我完成存储正准备读取的时候,这个成熟的项目的健壮性,拒绝了我的树,这里的拒绝逻辑具体用到了。最近有这样一个项目,这个项目可以用一个成熟的项目的构造树,读取树,再检索的过程,现在有新的需求,另一个逻辑构造同样节点结构的树,的实例的python内置函数,(据说,obj是继承的子类也过,感兴趣可以验证下,我这里的任务是识别为该类实例化的对象)在序列化时保存了模块路径信息,那么即使类名相同,如果模块路径不同,:如果 Tree 类是在不同的模块中定义的,并且。原创 2024-04-26 13:58:10 · 260 阅读 · 2 评论 -
LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
映射规则是人为制定的,比如,将“太好了”、“好”映射为“正面”标签,将“不好”,“糟糕”映射为“负面”标签,将“一般”映射为“中立”标签。由于模型可接受的最大输入长度有限,随着软提示的参数量增多,实际输入序列的最大长度也会相应减小,影响模型性能。:在自然语言处理中,LLM(Large Language Model,大型语言模型)的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。= {“太好了”,“好”,“一般”,“不好”,“糟糕”}是衡量指令数据的重要维度,影响有监督微调过程的关键因素。原创 2023-09-25 21:40:02 · 563 阅读 · 0 评论 -
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
"语料库的似然性"通常是指一个特定文本序列(通常是一段文本或一个句子)在语料库中出现的概率。统计每个相邻字节对的出现频率,合并出现频率最高的字节对,将其作为 新的词元加入词表。构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。输入词序列全词切分,对照词表按词元从长到短顺序遍历匹配。合成全词时,词元表示失败部分视作未登录词,赋予相同表示。2. 全词切分为词元以及词元合并为全词的方法。将字节视为合并的基本符号。将字节视为合并的基本符号。第一个词元出现的频率。第二个词元出现的频率。原创 2023-09-25 21:26:10 · 765 阅读 · 0 评论 -
LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】
解码端则负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被观测的,因此这一额外增加的掩码是用来掩盖后续的文本信息,以防模型在训练阶段直接看到后续的文本序列进而无法得到有效地训练。预训练阶段包括了编码器和解码器的部分,用于学习通用表示,而下游任务通常涉及到对编码器和解码器的微调,以适应具体任务。最底层的输入(x1, x2, x3) 表示输入的序列数据,通过嵌入层(可选)将它们进行初步的embedding得到的a1,a2,a3。原创 2023-09-25 21:12:56 · 726 阅读 · 0 评论 -
循环神经网络——下篇【深度学习】【PyTorch】【d2l】
深度循环神经网络需要大量的调参(如学习率和修剪) 来确保合适的收敛,模型的初始化也需要谨慎。这些额外的信息可以是一些上下文信息,例如输入序列的长度、标点符号和语法结构等。尽管模型产出的困惑度是合理的, 该模型预测未来词元的能力却可能存在严重缺陷。这个架构常用于编码器-解码器架构是一种常用于序列到序列(Seq2Seq)任务的深度学习架构。神经网络机器翻译方法,强调的是端到端的学习。机器翻译的数据集是由源语言和目标语言的文本序列对组成的。并不适合预测未来,它需要上下文,下文(未来)未知逻辑上讲不通的一个结构。原创 2023-09-18 11:01:36 · 1171 阅读 · 8 评论 -
循环神经网络——中篇【深度学习】【PyTorch】【d2l】
在循环神经网络中执行如上计算的层 称为。深度学习框架的高级API对代码进行了更多的优化, 该模型在较短的时间内达到了较低的困惑度。直白理解:不是每个观察都重要,更新门实现关注机制,重置门实现遗忘机制。于是基于循环计算的隐状态神经网络被命名为。隐状态使用的定义与前一个时间步中使用的定义相同, 因此 上式计算是。来衡量,是平均每次可能选项,1为完美,最差为∞。隐状态:(隐藏层数,批量大小,隐藏单元数)用来衡量一个语言模型好坏的标准,可以用。这里是,随即权重预测(效果不好)其中,p为预测概率,原创 2023-09-18 10:59:08 · 390 阅读 · 0 评论 -
循环神经网络——上篇【深度学习】【PyTorch】【d2l】
若没有足够的历史记录来描述前τ个数据样本。一个简单的解决办法是:如果拥有足够长的序列就丢弃这几项;另一个方法是用零填充序列。序列模型主要用于处理具有时序结构的数据, **时序数据是连续的,**随着时间的推移,如电影评分、电影奖项、电影导演演员等。时光机器数据集中的每个文本行不一定是一个句子或一个段落,还可能是一个单词,因此返回的。对过去的数据建模,使用自身过去数据去预测自身未来数据,称为自回归模型。仅处理为单个列表,而不是使用多词元列表构成的一个列表。为了简化,使用字符(而不是单词)实现文本词元化;原创 2023-09-18 10:51:35 · 360 阅读 · 1 评论 -
卷积神经网络——下篇【深度学习】【PyTorch】【d2l】
首先,定期进行系统和软件的更新,保持操作系统和应用程序在最新版本,以获得更好的性能和安全性。其次,保持电脑的清洁,定期清理灰尘和污垢,确保散热良好,避免过热对硬件的损害。批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。在学习方面,合理规划学习时间,避免长时间的连续使用电脑,适时休息,保护眼睛和身体健康。其中,x∈B,x是一个小批量B的输入,比例系数γ,比例偏移β。,才有了批量规范化的名称。原创 2023-08-21 20:14:13 · 937 阅读 · 0 评论 -
卷积神经网络——中篇【深度学习】【PyTorch】【d2l】
为什么提出NiN?全连接层是网络里参数比重最高的地方(参数=输入通道\*高\*宽*输出通道\*高\*宽),尤其是卷积后的第一个全连接层。而卷积层参数就小得多。所以用卷积层替代全连接层,参数会更少。原创 2023-08-21 20:01:20 · 666 阅读 · 0 评论 -
卷积神经网络——上篇【深度学习】【PyTorch】【d2l】
(convolutional neural networks,CNN)是机器学习利用自然图像中一些已知结构的创造性方法,需要更少的参数,在处理图像和其他类型的结构化数据上各类成本,效果,可行性普遍优于全连接层。最大池化,每个窗口最强的模式信号,它针对卷积对空间位置敏感(边缘检测案例),允许输入有一定的偏移。K扩了三倍,所以用小k规模和原来的K相当,因此X 对应扩充前的K,扩充后的小k。一个足够充分的照片数据集,输入,全连接层参数,GPU成本,训练时间是巨大的。每个通道都有一个卷积核,结果为各通道卷积的和。原创 2023-08-21 19:48:09 · 797 阅读 · 0 评论 -
动手学DL——MLP多层感知机【深度学习】【PyTorch】
加入一个或多个隐藏层+激活函数来克服线性模型的限制, 使其能处理更普遍的函数关系类型,这种架构通常称为*多层感知机*(multilayer perceptron)。原创 2023-08-08 23:45:00 · 898 阅读 · 0 评论 -
线性神经网络——softmax 回归随笔【深度学习】【PyTorch】【d2l】
softmax 函数与交叉熵损失函数常用于多分类任务中。softmax 函数用于将模型输出转化为概率分布形式,交叉熵损失函数用于衡量模型输出概率分布与真实标签的差异,并通过优化算法来最小化损失函数,从而训练出更准确的分类模型。softmax 函数是一种常用的激活函数,用于将实数向量转换为概率分布向量。真实标签的概率分布是由数据集中的标签信息提供的,通常使用单热编码表示。之间的差异,是分类问题中常用的 loss 函数。中起到重要的作用,并与交叉熵损失函数结合使用。其中,O为小批量的未规范化的预测,原创 2023-07-23 23:53:18 · 623 阅读 · 0 评论 -
线性神经网路——线性回归随笔【深度学习】【PyTorch】【d2l】
这样得到的是一个NumPy数组,代表散点图中的x轴数据。优化函数没有直接使用损失值,但通过使用损失函数和反向传播计算参数的梯度,并将这些梯度应用于参数更新,间接地优化了模型的损失。来清零参数的梯度,那么参数将会保留上一次迭代计算得到的梯度值,继续沿用该梯度值来求解梯度。labels.detach().numpy() 是一个二维张量labels的分离和转换操作,得到一个NumPy数组,代表散点图中的y轴数据。简单说,就是计算损失值的张量运算不会记录到计算图中,因为没必要,而且不建立计算图,求损失值更快了。原创 2023-07-23 23:30:00 · 2122 阅读 · 0 评论 -
动手学DL——深度学习预备知识随笔【深度学习】【PyTorch】
当计算标量的梯度时,PyTorch会自动计算并传播梯度,而无需明确传入梯度参数。张量的计算通常会生成计算图。:计算图可以帮助自动计算函数的导数,特别是在深度学习中的反向传播算法中。通过在计算图中计算每个节点的梯度,可以从输出端反向传播梯度到输入端,以便优化模型的参数。中的每个分类变量【不是数值的,比如字符串值】都拆分为多个二进制变量,每个变量表示一种可能的分类。向量|张量相加得到了意外的结果,可以考虑是不是误将不同形状的向量相加了,触发了广播机制。,维度同但形状不同,广播,维度同形状也同,可以执行。原创 2023-07-23 23:18:22 · 562 阅读 · 0 评论 -
动手学DL——环境部署随笔【深度学习】【Anaconda】【CUDA】【PyTorch】【jupyter】
在网络环境差时,pytorch 离线安装方法。安装 CUDA,CUDA Toolkit 11.3.0 (April 2021), https://developer.nvidia.com/cuda-toolkit-archive。我认为,深度学习的学习过程中,必须掌握虚拟环境搭建、三大科学计算库、jupyter的使用,再就是有针对性地模型学习,保持对新技术出现的敏锐嗅觉。新环境下包很少,安装科学计算库。原创 2023-07-06 00:49:40 · 1677 阅读 · 0 评论 -
将数据集按特征|列分割为解释变量 X & 响应变量 y 的几种方法【机器学习】
原因如下 上面提到的双条件判断出现了[True,False,False,True,True,True]与[False,True,True,False,False,False]判断,出现了多组值的判断。上面的只适合一元响应变量的特征输入,很可惜 写成下面这样就无法通过编译了。这里的列,根据bool/条件语句/整数去选择列都可以,比如。特点:回归问题,解释变量唯一。回归问题,解释变量为。原创 2022-02-26 16:18:24 · 1155 阅读 · 1 评论 -
波士顿房价预测案例---多元线性回归【机器学习】
介绍:我们采用波士顿房价预测数据集进行回归任务分析。数据集分为训练集和测试集,训练集可用于训练回归模型,测试集需要进行预测。要求:1.做linear regression,或使用现成的线性回归函数,方法尝试使用Gradient Descent,SGD 以及 ADAM。2.比较不同learning rate的结果。例如损失函数曲线图3.比较有无加上regularization的结果。4.比较有无否使用 feature scaling的结果。Try:1、机器学习(lr)2、深度学习(未开始).原创 2021-04-04 20:13:40 · 3062 阅读 · 3 评论 -
ML算法——Support Vector Machine随笔【机器学习】
后者更优,决策边界距离数据点越远,越优。1)距离计算通过数学计算,表达这个距离最远。distance(x,b,w)=∣wT∣∣w∣∣(x−x′)∣=1∣∣w∣∣∣wTx+b∣(1)distance(x,b,w) = |\frac{w^T}{||w||}(x-x')| = \frac{1}{||w||}|w^Tx+b| \tag{1} distance(x,b,w)=∣∣∣w∣∣wT(x−x′)∣=∣∣w∣∣1∣wTx+b∣(1)2)数据标签定义数据集:(X1,y1)(X2,y2)(X3,y3)...(原创 2023-06-29 15:22:58 · 672 阅读 · 0 评论 -
ML算法——逻辑回归随笔【机器学习】
计算假阳率的方法是,将预测为正例的样本数量除以所有的负例样本数量。在实际应用中,假阳率高的模型可能会导致过多的误判,因此需要尽可能降低模型的假阳率。假阳率主要出现在分类问题中。在评估分类模型的性能时,假阳率是一个重要的指标,特别是在模型应用于关键决策时。例如,在医疗诊断中,高假阳率可能会导致对病人进行不必要的治疗或手术,因此需要尽可能降低模型的假阳率。Logic Regression (LR),逻辑回归的因变量是二分类的,而不是连续的。参照线性回归中的θ,这里的θ也是个向量,涵盖所有提到过的θ分量,θ=原创 2023-06-11 23:31:15 · 1376 阅读 · 0 评论 -
ML算法——线性回归随笔【机器学习】【六一创作】
利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的方法。将每一个数据的键值的类型从字符串转为日期。(继续完善公式推导、解析解的公式过程)原创 2023-05-31 00:32:31 · 818 阅读 · 0 评论 -
ML算法——KNN随笔【机器学习】【全国科技工作者日创作】
比如,如果使用随机拆分数据的方式进行验证,因为随机拆分数据的时候存在不随机的情况,所以就会对验证效果产生影响。它是机器学习中唯一一个不需要训练过程的算法,它在训练阶段只是把数据保存下来,训练时间开销为 0,等收到测试样本后进行处理。KNN用于回归问题时,模型从训练数据集中选择离该数据点最近的k个数据点,并且把这些数据的y值取均值,未知点的判断基于已知点的距离,选出最近的K个点,投票选出未知点的最大可能。边界越陡峭,越不稳定,希望得到平滑的边界,理论上,K↑,边界越平滑。是空间中的两个点,i和j表示维度。原创 2023-05-30 00:15:00 · 690 阅读 · 0 评论 -
科学计算库——Pandas随笔【附网络隐私闲谈】
怎么用?举个例子,定义从1开始的索引,怎么取值?通过索引取值,沿用上面例子obj [ 1 ]aSeries()Series()传入列表,得到的对象,有默认索引,可自定义;Series()传入字典【key:value】,得到的对象,key为索引。怎么选取特定的键值对,并返回 obj【Series对象】?原创 2023-05-14 23:02:37 · 985 阅读 · 2 评论 -
科学计算库—numpy随笔【五一创作】
在机器学习中常通过使用花式索引来打乱数据集的样本顺序,避免机器学习模型学习到样本的位置噪声,对于监督学习的数据集如果打乱了样本还需要打乱相对应的标签值,样本与标签都是一一对应的关系,使用花式索引能够轻松的解决。1.虽然Python数组结构中的列表list实际上就是数组,但是列表list保存的是对象的指针,list中的元素在系统内存中是分散存储的,例如[0,1,2]需要3个指针和3个整数对象,浪费内存和计算时间。从存储数据来看,numpy 存储的是矩阵,list 存储的是序列。原创 2023-05-01 06:36:22 · 1099 阅读 · 1 评论 -
“异步“执行多个无限执行程序【shell】【flask】【python】
无限执行程序:死循环、Flask、定时spider原理:执行n个程序,前n-1个(如果是无限执行的放后台),最后一个前台执行以通过shell去控制Flask开启(服务器正常是不会结束的)、且打开数据面板,同时还要执行定时爬虫为例#后台启服务器echo "server staring..."nohup python -u ../app.py > server.log 2>&1 & sleep 3echo "server started!"sleep 1 #原创 2022-01-09 16:06:57 · 1222 阅读 · 0 评论 -
FileNotFoundError: [Errno 2] No such file or directory: ‘data.json‘
A.py:def calculate_categories(): categories = {} with open('data.json','r',encoding='utf-8') as fp: r = fp.read() r = json.loads(r)['data']['realtime']#50条左右calculate_categories可以正常执行。B.py:categories = demo.calculate_categories原创 2022-01-04 15:55:41 · 3154 阅读 · 0 评论 -
初次执行schedule遇到TypeError: the first argument must be callable
我遇到的场景是def weibo_spider(): ...... schedule.every(10).minutes.do(weibo_spider())while True: schedule.run_pending() File "D:\Temp\anaconda\lib\site-packages\schedule\__init__.py", line 625, in do self.job_func = functools.partial(job_fu原创 2022-01-03 19:35:45 · 2514 阅读 · 3 评论 -
利用openpyxl处理Excel表格【Python】
记录了几个常用的操作前提from openpyxl import Workbook,load_workbook创建名为d.xlsx文件、用到了其中的工作表【Sheet1】一、xlsx1.1、xlsx文件创建wb = Workbook()sheet = wb.active#保存wb.save('d.xlsx')1.2、xlsx文件读取wb = load_workbook('d.xlsx')sheet = wb['Sheet1']二、cell2.1、查数据操作wb = loa原创 2021-01-19 20:50:37 · 396 阅读 · 1 评论 -
接收前台ajax交互数据【Flask】
flask接收的ajax数据往往是发送POST请求的JSON类型数据#前台$.ajax({ url:"/admin/deleteRecord", method:"POST" dataType:"JSON", data:{"acm_id":acm_id}, success:function(data){ }})原创 2021-01-15 20:15:00 · 396 阅读 · 0 评论 -
python中将dict存入list中,list值仍然随着dict变化【Flask】
情景在一次将数据库查询结果手动转化为json数据(obj转json)的过程中,发现前端得到的每条数据都是一样的,代码如下:res = orm.query_all() data = [] res_dict = {} for item in res: res_dict['acm_id'] = item.acm_id res_dict['acm_title'] = item.acm_title data.append(res_dict)原创 2021-01-15 18:00:49 · 1622 阅读 · 0 评论 -
python国内源【Python】
https://www.cnblogs.com/songzhixue/p/11296720.html转载 2020-12-30 08:36:11 · 633 阅读 · 0 评论 -
数据库连接DBUtils.PooledDB 安装失败【Flask】
pip install DBUtils.PooledDB结果:安装报错,同时提示我pip版本不是最新Looking in indexes: https://pypi.mirrors.ustc.edu.cn/simple/ERROR: Could not find a version that satisfies the requirement DBUtils.PooledDBERROR: No matching distribution found for DBUtils.PooledDB挣扎一下原创 2020-12-01 22:27:26 · 3371 阅读 · 2 评论 -
Python类中的修饰@classmethod 和@staticmethod【Flask】
在flask中,经常会为了代码美观将过程封装成类,去引用这个文件,用例子来看区别@classmethod:class SQLHelper: @staticmethod def open(): conn = pymysql.connect(host='127.0.0.1',port=3306, user='root',passwd='123456',db='flask') cursor = conn.cursor(cursor=pymysql.curso原创 2020-12-01 21:27:07 · 658 阅读 · 2 评论 -
该网页无法正常运作127.0.0.1 将您重定向的次数过多。 尝试清除 Cookie. ERR_TOO_MANY_REDIRECTS---关于flask遇到的此状况的解决办法
问题:原因:那我自己的例子来讲,是装饰器中,只出现红色区域代码时,重定向无限循环导致的,每次重定向又会发送一个请求,满足重定向的条件(仍然是未登录)循环…解决:对重定向后的path做一个处理(详见,问题描述中的绿色框框),return None,即可跳出重定向,留在登录界面...原创 2020-11-08 18:44:44 · 10449 阅读 · 2 评论 -
python循环输入【Python程序设计】
while(True):x = input() ...目前在使用的过程中,几乎等价于c++的while(cin>>x){}原创 2020-10-03 16:49:50 · 588 阅读 · 0 评论 -
反爬情景【pyhton爬虫】
1.元素检查、审核 可以看到该元素但是网页源代码中并没有这个元素,xpath/selenium 无法直接在网页中获取到这个元素(智联招聘将信息直接挂载到网页上,到如今改版后,通过接口获取信息,而一般爬虫,爬取的往往是源码,,,)...原创 2020-09-12 18:31:04 · 64 阅读 · 0 评论 -
python 处理json数据【JSON、Python】
import json #导入json包json.dumps() # 将字典、列表转化为json格式的字符串json.loads() #将json 格式的字符串转化为python 对象json.dump(lt,open(‘json.txt’,‘w’,encoding=‘utf8’)) #将lt 转化为json 格式的字符串写入到文件当中json.load(open(‘json.txt’,‘r’,encoding=‘utf8’)) #从文件中读取json格式字符串,转化为python对象...转载 2020-08-31 19:29:54 · 138 阅读 · 0 评论 -
六种打开文件方式with open【python】
#打开文本类文件,必要时加上编码类型with open('QQname.html', 'r', encoding='utf-8')as fp: r = fp.read() print(r)#覆盖|创建文本类文件with open('QQname.html', 'w', encoding='utf-8')as fp: fp.write('内容')#追加|创建文本类文件with open('QQname.html', 'a', encoding='utf-8')as f原创 2020-08-22 20:04:08 · 1897 阅读 · 0 评论 -
常用的正则表达式【python爬虫】
正则表达式mysql查询中掌握了这四种‘^……’‘…… $’‘1|……$’‘……’https://www.runoob.com/mysql/mysql-regexp.html…… ↩︎原创 2020-07-21 11:42:50 · 346 阅读 · 0 评论