gatinaa-CSDN博客

原创 python从子文件导入非标准库函数

python导包的逻辑是从sys.path路径里面找，由于是列表展开，第一个找不到就换下一个，直到找到module里面的函数，如果module找到了，但是函数没有找到，就会报错。我定义的包在前面一个sys.path找到了，但是这不是我要的，所以导致报错，还莫名其妙的不知道为什么？比如我正在models文件夹下的i2i_mamba_one.py文件，要导入util文件夹里面的util。这个是你pip的包的时候，你的库函数存放的地方。但是他却会报错、为什么？查了全网的资料都没找到为什么。mermaid伪代码。

2024-12-28 00:15:32 454

原创扩散模型学习笔记

如果将Diffusion与其他生成模型（如Normalizing Flows、GAN或VAE）进行比较，它并没有那么复杂，它们都将噪声从一些简单分布转换为数据样本，Diffusion也是从纯噪声开始通过一个神经网络学习逐步去噪，最终得到一个实际图像。Diffusion对于图像的处理包括以下两个过程：选择的固定（或预定义）正向扩散过程 𝑞 ：它逐渐将高斯噪声添加到图像中，直到最终得到纯噪声一个学习的反向去噪的扩散过程 𝑝𝜃 ：通过训练神经网络从纯噪声开始逐渐对图像去噪，直到最终得到一个实际的图像。

2024-07-18 10:49:28 1095

原创将JPG流程图与xml中的数据进行准确映射

上文工作将xml另存为jpg文件后，算是得到了数据，那么后面我们如何得到准确的标签呢？本文将总结如何将JPG流程图与xml的数据进行准确映射，最后得到数据标签存储在json文件中。

2024-07-01 15:13:40 723

原创 PDF转Word脚本

批量将PDF转化为Word

2024-06-30 14:51:12 766 1

原创 k-means++算法分类UCI-HAR数据集

通过智能手机上的传感器收集的运动数据，记录了30名志愿者执行6种不同活动时的动作。每个样本记录了多个时间序列特征，旨在对人类活动进行分类。WALKING: 行走: 上楼: 下楼SITTING: 坐STANDING: 站LAYING: 躺k-means++是k-means聚类算法的一种改进版本，旨在通过优化初始簇心选择来提高聚类性能。k-means++ 算法的核心思想是：通过增加距离来选择初始簇心，从而避免 k-means 传统方法可能出现的局部最优问题。

2024-06-26 18:50:42 836

原创提取JSON文档中的html（split）与markdown（正则法）

利用chatlama的方法生成大量的文本数据，以JSON文件的格式存储，需要清洗这些数据，得到html文件和对应的markdown文件。25w行json数据如何批量处理，得到想要的数据？

2024-06-20 19:41:36 585

原创 ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory:

这个错误通常表示在尝试安装或升级包时，找不到特定的文件或目录。这可能是由于多种原因引起的，包括文件损坏、依赖关系问题或环境配置问题。如果以上方法都不起作用，考虑重新创建你的Anaconda环境。首先删除现有的环境，然后重新创建并重新安装所需的包。首先尝试重新安装引发错误的包，这可能会修复损坏的文件或目录。确保你的Anaconda环境配置正确。确保你正在使用正确的环境，并且环境中的路径设置正确。有时候包管理器可能会有一些缓存文件，可能会导致问题。如果这个包依赖于其他包，你可能需要一起重新安装这些依赖包。

2024-06-20 17:53:11 21880 1

原创利用drawo.io将xml转化为JPG

上文工作利用diagrams渲染mermaid为xml文件现在需要将xml转化为JPG文件，投喂给大模型，提升大模型的图表能力

2024-06-20 17:22:39 1934 2

原创利用diagrams渲染mermaid为xml文件

Mermaid 是一种基于 JavaScript 的开源图表生成工具，使用一种简单的 Markdown 风格的语法，创建各种类型的图表和图形，包括流程图、序列图、甘特图、类图等。得到的JSON文档中包含mermaid代码和markdown代码：清洗并验证 Mermaid 代码。# 清洗并验证Mermaid代码：模拟点击 draw.io 菜单选项。breakbreakdrawio：将 Mermaid 代码插入到 draw.io 中，并导出为 XML 文件。

2024-06-20 16:44:34 2307

原创利用snapshot的方法将html渲染为JPG

生成或者爬取大量的html数据后，提升大模型的OCR能力需要将数据转化为JPG文件。最开始尝试用 selenium.webdriver.chrome.options来进行快照，但是不仅资源占用不释放，而且html的动画也会影响效果。后面找到了snapshot_selenium这个库，使用pyecharts和来生成 HTML 文件的截图。

2024-06-19 19:16:00 1094

原创渲染多样式gauge图的html数据

提升大模型的图表识别能力，需要大量数据投喂。生成带有标签的随机多样式的数据是关键。我的想法是找一些模板，将其中的value改成随机变量。

2024-06-19 17:26:57 272

原创利用遗传算法（GA）与模拟退火算法（SA）求目标函数最小值

要求实现一个演化计算的算法，求测试函数的最小值。要求：群体规模NP=100；最大迭代次数不超过3000代。或者，总的计算次数小于100*3000。算法需独立运行30次，并记录进化的过程。

2024-06-18 16:41:22 1868 1

原创 RuntimeError: [enforce fail at C:\cb\pytorch_1000000000000\work\caffe2\serialize\inline_container.cc

加载或保存模型时出现了问题，具体的错误是文件读取位置与预期位置不一致。这通常是由于模型文件损坏、部分下载或不完整保存引起的。确保提供的文件路径是正确的，并且文件可以被正确读取。

2024-06-16 13:55:38 807 1

原创基于Unet网络进行鼻息肉（Kvasir）的分割

Unet网络进行鼻息肉（Kvasir）的分割

2024-06-13 19:13:48 2286 3

原创 UserWarning: The given NumPy array is not writable, and PyTorch does not support non-writable tensor

这个警告表示将一个不可写的NumPy数组转换为PyTorch张量。避免这个警告只需要在转换之前创建一个NumPy数组的副本。打开图像并将其转换为 NumPy 数组时，该数组可能是只读的。如果直接将这个只读的 NumPy 数组传递给。，则 PyTorch 会发出警告，因为它不能保证在只读数组上进行操作是安全的。，创建了一个新的 NumPy 数组，这个数组是可写的。警告虽然无伤大雅，但是看着不好看。

2024-06-13 14:53:57 1195 1

原创 python实现BPnet-处理MNIST数据集

MNIST数据集（Modified National Institute of Standards and Technology database）是一个广泛使用的手写数字图像数据集。图像类型：灰度图像图像大小：28x28像素通道数：1（灰度）类别数：10（数字0-9）训练集：60,000张图像测试集：10,000张图像。

2024-06-07 17:17:13 922

原创 ID3分类算法python实现

ID3算法（Iterative Dichotomiser 3）是一种用于生成决策树的算法，ID3算法基于信息论中的熵和信息增益来选择决策树的分裂属性。主要用于分类任务。

2024-05-30 17:12:10 1203 1

原创数据处理-删除无内容的图片

数据处理-删除无内容的图片

2024-05-29 18:56:02 640 2

原创总结了数据清洗常见的插值方法

创建20X20的数据表，随机数插入100个空缺值。利用不同的方法填充空缺值。

2023-09-25 00:20:46 476 1

原创最小二乘法

最小二乘法（Least Squares Method）是一种常用于线性回归分析的统计方法，用于寻找一条直线（或者更一般的线性模型），以最小化观测数据与模型预测值之间的平方误差的总和。线性回归的目标是建立一个线性方程，以描述自变量（通常表示为X）与因变量（通常表示为Y）之间的关系。

2023-09-23 17:26:58 492 1

weixin_46636042的博客