自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 ddddocr识别正确率不高,这里提供两种代码方法解决这个问题

请注意替换上述代码中的`"your_login_button_id"`和错误提示文本`"验证码错误"`为实际网页中的对应内容。同时,XPath表达式`f'//*[text()="{error_message}"]'`用于查找包含特定文本的元素,可能需要根据实际HTML结构进行调整。请注意,上面的代码仍然是不完整的,特别是在裁剪截图的部分。# 如果找到错误提示,则说明验证码识别错误,清除已输入的验证码,并等待一段时间后重试。error_message = "验证码错误" # 替换为实际错误提示文本。

2024-01-24 07:31:19 905 1

原创 读取excel单元格内容,对应填写网页表格,网页中有下拉多选框,python写代码实现下拉框自动录入的功能,有很多注意事项...

在上述代码中,我将XPath路径替换为CSS选择器,你需要根据实际HTML结构定义对应的CSS选择器字符串模板(如`.dropdown-option-{}`和`.dropdown-other-option-{}`)。现在,你可以根据实际情况传递Excel中包含下拉选项数据的列名和下拉菜单ID模板字符串给`select_options_from_dropdown`函数,使其更具通用性和适应性。# 假设excel中的某一列是需要填入选项的列,并且与网页下拉框相对应。# 从Excel中获取对应单元格的内容。

2024-01-22 21:20:35 517

原创 如何给程序代码里调用的外部文件加路径,以便代码总是能找到这个文件并可以顺利执行而不报错?

如果你的文件与你的Python脚本在同一目录下,你可以只使用文件名。但如果它们在不同的目录,你需要指定从当前脚本目录到文件的相对路径。例如,如果你的脚本在。模块来获取当前工作目录,并将其与文件的相对路径结合起来。这样,无论你从哪里运行你的脚本,它总是会找到文件。错误,表示程序试图打开一个不存在的文件。根据你的具体情况和需求,选择适合你的方法来指定文件的路径。例如,如果你的文件位于。注意:在Windows系统中,路径中的反斜杠。,那么你应该使用这个完整的路径。:你也可以使用Python的。

2024-01-21 15:17:03 384 1

原创 如何将一段文本里的信息整理并格式化到的表格里,然后自动填写到网页的表格里?顺带加一段python代码,学习笔记,尚未找到完整解决方案

对于文本信息到表格的转换,可以使用Microsoft Excel或Google Sheets中的文本到列功能(比如Excel的“文本导入向导”或使用Ctrl+E智能填充)将非结构化的文本数据分割并整理成表格形式。如果你不熟悉编程,也可以考虑使用一些现成的数据提取与填充服务或者工具,它们可能会提供图形化界面简化整个过程,但具体功能会受到特定软件和服务的限制。在上面的代码中,我们使用了Python的PDFMiner库来读取PDF文件的内容,并使用Pandas库将数据转换为DataFrame。

2024-01-17 08:08:32 388

原创 有没有一个工具或者操作方法可以帮助我把一段文本里的相关联信息提取到一个固定格式的表格里,然后再手工或者最好自动填写到相同或者相似的网页格式的表格里的?

对于文本信息到表格的转换,可以使用Microsoft Excel或Google Sheets中的文本到列功能(比如Excel的“文本导入向导”或使用Ctrl+E智能填充)将非结构化的文本数据分割并整理成表格形式。如果你不熟悉编程,也可以考虑使用一些现成的数据提取与填充服务或者工具,它们可能会提供图形化界面简化整个过程,但具体功能会受到特定软件和服务的限制。- 另外,对于有API支持的网页应用,可以直接通过编程方式调用API接口来批量上传数据,这样就不需要模拟用户界面操作。

2024-01-16 16:49:02 314 1

原创 lookup table长什么样?transformer是如何将一段文字通过input embedding转换成低维稠密向量的?querry, key, value分别代表了什么?

1. **解码器的初始输出**:当解码器开始工作时,其首个隐藏状态通常是对前一个时间步(对于第一个位置可能是特殊标记如`<start>`)的嵌入向量经过自注意力机制(这里特别指带掩码的多头注意力模块)计算后的结果。这种设计允许模型在生成输出时考虑更多的上下文信息,从而提高了输出的准确性和质量。- **Value (V)**: 同样来自编码器的输出,当key与query匹配时,对应的value将被加权求和来生成最终的上下文向量,这个向量包含了从源序列中提取的重要信息,用于生成目标序列的当前词。

2024-01-16 12:11:25 811 1

原创 softmax是个什么算法?input embedding是什么意思?positional encoding是什么意思?请用具体文本或图表展示一下lookup table长什么样子?并举例说明一下

这样做的目的是将原本无法直接进行数学运算的符号转化为机器可以理解和计算的数值形式,并且尽量保持语义上的相似性,即语义相关的词汇在嵌入空间中的距离较近。具体来说,Transformer中使用的Positional Encoding往往是正弦和余弦函数的线性组合,它们以不同的频率对齐,确保即使在非常大的序列长度下也能保留位置信息,同时可以与嵌入向量相加,共同作为Transformer模型自注意力机制的输入。这些编码向量同样被添加到对应位置的词嵌入向量上,使得模型能够根据向量的位置信息来理解词语间的顺序关系。

2024-01-16 07:36:33 348

原创 transformer学习笔记1(什么是循环神经网络?循环神经网络跟卷积神经网络有什么区别?这种差异的背后的数学原理是什么?)

不过,标准RNN存在长期依赖问题,即较远过去的输入难以影响当前输出,这导致了LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)等改进模型的出现,这些模型通过门控机制有效地解决了这一问题。与传统的前馈神经网络(Feedforward Neural Networks)不同,RNN在时间上具有循环的特性,即它们在网络内部包含有环状的连接,使得信息可以从一个时间步传递到下一个时间步。- \( h_t \) 是在时间步 \( t \) 的隐藏状态。

2024-01-16 07:31:06 488 1

原创 transformer学习笔记2(如果输入为不定长的文本,encoder如何将其编码为固定长度的向量?一般这个向量有哪几个维度?如何理解这些维度?)

在原始的序列到序列(seq2seq)模型中,Encoder确实会将不定长的输入文本编码为一个固定长度的向量,这个过程通常通过循环神经网络(RNN),如长短期记忆网络(LSTM)或门控循环单元(GRU)来实现。不过需要注意的是,尽管输出是一个固定大小的向量,但这个向量可能并不是直接对整个输入序列进行简单压缩得到的单一固定维度向量,而是通过对最后一个时间步隐藏状态(hidden state)或其加权和(如在双向LSTM中的情况)来近似表示整个序列的上下文信息。这个维度数代表了向量能够表达的不同特征的数量。

2024-01-16 07:29:36 535 1

原创 transformer学习笔记1(seq2seq是什么意思,他和编码器解码器有什么区别?)

seq2seq 指的是这种特定类型神经网络模型的整体框架或设计模式,而“编码器-解码器”则是描述该模型内部关键组件的具体结构。可以说,seq2seq 模型就是通过编码器-解码器结构实现的。`seq2seq` 是序列到序列(Sequence to Sequence)模型的简称,这是一种深度学习架构,用于处理输入和输出均为不定长序列的问题。1. 编码器(Encoder):它负责读取输入序列,并将其转换为一个固定长度的向量(在某些变体中可能是可变长度的上下文向量),这个向量包含了输入序列的压缩表示。

2024-01-16 07:25:56 370 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除