- 博客(126)
- 收藏
- 关注
原创 深入理解Allan方差:用体重数据分析误差的时间尺度与稳定性
Allan方差最初被应用于分析频率标准中的噪声特性,特别适用于分析时间序列的长期和短期稳定性。它能够揭示数据在不同时间尺度下的波动特性,从而帮助我们理解数据的动态变化。Allan方差能够帮助我们揭示数据在不同时间尺度下的波动特性。通过计算和分析体重数据的Allan方差,我们展示了其在实际应用中的效果。进一步,通过双对数曲线的绘制,我们能更深入理解和应用Allan方差,在更广泛的数据分析中发挥作用。应用实例体重管理:Allan方差可以帮助判断体重变化的稳定性,识别出短期波动与长期趋势。金融数据分析。
2024-10-26 01:09:13 887
原创 PyCharm 2023 版本之后使用本地 conda 已存在环境的方法
之后,每次新建使用本地conda环境的项目只需要从第四步的选择环境开始即可,点击 “Create” 就可进入使用选中的本地环境的oycharm项目了。点击右侧的蓝色 “Add Interpreter” 按钮,然后选择 “Add Local Interpreter” 来进入本地环境选择界面。完成上述设置后,点击右侧的 “Load Environments” 以加载所有可用的本地 Anaconda 环境。从列表中选择您想要使用的 Conda 环境,点击“OK”即可加载所选环境。此文件夹内包含一个名为。
2024-10-25 17:34:15 460
原创 在 Ubuntu 上安装和卸载 PyCharm (2024)
通过以上步骤,可以在 Ubuntu 系统上安装或卸载 PyCharm,无论是社区版还是专业版都可以按照这些方法操作。
2024-10-21 15:18:59 1053
原创 在 VS Code 中调试 Tensor 形状不显示的问题及解决方案
通过自定义__repr__方法,我们成功地解决了 VS Code 中调试Tensor变量时无法快速查看其形状的问题。我们同样可以使用类似的方式来扩展其他数据类型,使得调试时变量信息更加直观清晰。该方法非常实用,尤其适合处理大型数据集或高维度张量的深度学习项目。
2024-10-20 23:51:24 981
原创 解决 VSCode 调试时 Python 文件路径问题及 `FileNotFoundError` 报错 (在原本非调试情况下可运行)
VSCode 在调试 Python 项目时,工作目录不一致可能导致文件路径问题,尤其是当代码中使用相对路径时。这种问题可以通过调整工作目录或使用绝对路径来解决。设置正确的工作目录:在文件中通过cwd配置指定正确的工作目录。动态构建文件路径:使用os.path模块确保路径的健壮性,避免相对路径带来的问题。理解调试方式的差异:根据项目的复杂程度选择合适的调试方式,直接调试适用于简单场景,而更适合复杂项目。
2024-10-20 21:35:09 1232
原创 理解TF-IDF:从原理到应用
TF-IDF是一种统计方法,它结合了词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)两个概念,以量化一个词对于特定文档以及整个文档集的重要程度。这种方法特别适用于从大量文本数据中提取关键信息或特征。
2024-10-16 15:28:30 1059
原创 如何将已加好的脚注或尾注转换成中括号“[]”格式
(这是尾注的象征符),在“替换为”框中输入。2、点击word文档上方“编辑”选项按钮。5、在“查找内容”框中输入。6、点击下方的“全部替换”1、正常插入所有尾注。4、点击“替换”选项。
2024-10-01 17:12:11 360
原创 深入理解主成分分析 (PCA) 及其广泛应用
PCA 在多种实际场景中表现出色。例如,在图像压缩中,PCA 通过提取最主要的特征来减少图像数据的存储需求;在噪声过滤中,通过去除低方差主成分,PCA 能有效减少数据中的噪声。
2024-08-22 16:52:45 1837
原创 协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系
协方差是一个统计量,用于衡量两个变量之间线性关系的方向和强度。如果两个变量的值倾向于同时增加或减少,则它们具有正协方差;如果一个变量增加而另一个变量减少,则它们具有负协方差。协方差的值越大,表示两个变量之间的线性关系越强。
2024-08-22 13:08:13 1330
原创 方差:理解数据的离散程度
方差(Variance)是用来度量数据集中各观测值与其平均值之间差异的统计量。方差越大,表示数据点之间的差异越大;反之,方差越小,表示数据点之间的差异越小。
2024-08-22 10:35:16 1281
原创 Triplet Loss解析及示例计算
Triplet Loss是一种监督学习方法,用于学习一个嵌入空间,在这个空间中相似的样本距离彼此更近,而不相似的样本则相距较远。Anchor (A):基准样本。:与 Anchor 属于同一类别的样本。:与 Anchor 不属于同一类别的样本。
2024-08-21 14:54:39 909
原创 余弦相似度详解及应用案例
余弦相似度是一种用于衡量两个非零向量之间角度的度量方法。它通过计算两个向量夹角的余弦值来评估它们之间的相似性。余弦值越接近1,表示两个向量越相似;越接近0,则表示越不相似。
2024-08-20 17:33:21 878
原创 Python 中的 defaultdict 与普通字典 dict:对比与实践
字典是 Python 中的一种内置容器类型,用于存储键值对。键必须是不可变的对象(如字符串、数字或元组),而值可以是任意类型的数据。字典提供了快速的查找功能,因为它们是基于哈希表实现的。
2024-08-20 12:53:10 811
原创 探索字符编码:从 ASCII 到 Unicode 再到 UTF-8
探索字符编码:从 ASCII 到 Unicode 再到 UTF-8文章目录探索字符编码:从 ASCII 到 Unicode 再到 UTF-8什么是字符编码?ASCII (American Standard Code for Information Interchange)简介示例特点Unicode简介示例特点UTF-8 (Unicode Transformation Format - 8 bits)简介示例特点码点与码值码点 (Code Point)码值 (Code Value)为什么需要区分?示例:
2024-08-20 11:09:50 557
原创 Focal Loss详解及其pytorch实现
易分类样本:模型预测正确的概率较高,即yt\hat{y}_tyt较大(通常yt0.5yt0.5难分类样本:模型预测正确的概率较低,即yt\hat{y}_tyt较小(通常yt0.5yt0.5其中yt\hat{y}_tytytyify11−yotherwiseyty1−yify1otherwise。
2024-08-19 23:40:59 1720
原创 二分类交叉熵与多分类交叉熵详解及实例计算
二分类交叉熵(Binary Cross Entropy, BCE)通常用于只有两个类别的分类问题。它的目的是最小化模型预测概率与实际标签之间的差异。多分类交叉熵(Categorical Cross Entropy, CE)适用于三个或更多类别的分类任务。它的目标也是最小化模型预测概率与实际标签之间的差异。
2024-08-19 20:56:21 1857
原创 交叉熵与 Softmax 在多分类问题中的应用
交叉熵与 Softmax 在多分类问题中的应用文章目录交叉熵与 Softmax 在多分类问题中的应用Softmax 函数交叉熵损失函数实际案例数据准备模型结构训练过程示例计算平均交叉熵损失不使用平均交叉熵的影响实例分析关注真实类别的预测概率小结在机器学习和深度学习中,Softmax 函数和交叉熵损失函数是解决多分类问题的关键组成部分。本文将详细介绍这两个概念,并通过一个实际案例来说明它们的应用。Softmax 函数Softmax 函数是一个常用的激活函数,用于将一组数值转换为概率分布。假设我们
2024-08-18 14:35:16 972
原创 深入理解逻辑回归
逻辑回归是一种预测模型,用于估计某个事件发生的概率。它常用于预测诸如一个病人是否患有某种疾病、一封邮件是否是垃圾邮件等二分类问题。逻辑回归的输出是一个介于 0 和 1 之间的概率值,通过设定一个阈值(通常为 0.5),可以将这个概率值转换为具体的分类结果。逻辑回归的目标是找到一组模型参数,使得输入特征的线性组合通过 Sigmoid 函数转换后,能够最好地预测输出类别。逻辑回归通过将输入特征的线性组合转换为概率值,为我们提供了一种强大的工具来处理二分类问题。
2024-08-18 11:13:43 1271 5
原创 理解梯度下降:从梯度到多步迭代更新
对于一个多元函数fx1x2xnfx1x2xn,其在点x1x2xnx1x2xn∇fx1x2xn∂f∂x1∂f∂x2∂f∂xn∇fx1x2xn∂x1∂f∂x2∂f∂xn∂f我们的目标是最小化函数fxyx22xyy2fxyx22xyy2。
2024-08-17 23:52:28 1330
原创 SentencePiece 的参数 `byte_fallback=True` 是 BBPE 算法吗?
BBPE 是一种专门的分词算法,它将字节而非字符作为基本单元进行分词。这种方法特别适用于处理低频字符或罕见字符,尤其是当这些字符没有出现在训练数据中时。
2024-08-17 09:54:03 336
原创 利用python代码从Hugging Face Hub下载数据集
在自然语言处理(NLP)领域,数据集是构建和评估模型的关键资源。Hugging Face是一个活跃的社区,为研究人员和开发者提供了大量的高质量数据集。为了访问受保护的数据集,你需要一个Hugging Face的API令牌。库从Hugging Face Hub下载数据集,并将数据集保存到指定的位置。接下来,我们将使用Hugging Face的。函数下载数据集,并指定API令牌和缓存目录。这将输出数据集的信息,包括其分割、特征等。下面是一个完整的示例,演示如何下载。数据集,并将其保存到指定的位置。
2024-08-16 21:02:24 371
原创 大语言模型(LLM)文本预处理实战
token 来表示词汇表外的词汇;相反,GPT-2 使用字节对编码(BPE)分词器,它将词汇分解为子词单元,我们将在后面的章节中讨论这一点。进行填充(因为在批量输入训练时通常使用掩码,我们无论如何都不会关注填充的 token,所以这些 token 具体是什么并不重要)。一些分词器使用特殊 token 来为大型语言模型提供额外的上下文信息。注意,GPT-2并不需要上述提及的任何特殊 token,而是仅使用。我们在两个独立的文本来源之间使用。token 来简化复杂度。代表不在词汇表中的词汇。
2024-08-06 01:21:55 1142
原创 torch.nn.Embedding 和 torch.nn.Linear 的区别
用于将整数索引映射到连续向量空间。输入是一个整数索引的张量。输出是一个连续向量的张量。用于实现全连接层,可以将任意维数的输入映射到另一个维数的空间。输入是一个连续向量的张量。输出是一个连续向量的张量。
2024-08-04 23:37:50 932
原创 python 中的 join()
join()方法接收一个分隔符和一个可迭代对象作为参数。在您的例子中,使用了元组作为可迭代对象,这是完全有效的。如果你使用列表,效果是一样的。关键是确保iterable参数可以被迭代,并且每个元素都是字符串(或者可以被转换为字符串)。
2024-08-04 22:35:25 366
原创 python 中 file.read(), file.readline()和file.readlines()区别和用法
一次性读取整个文件的内容。返回一个包含文件所有内容的字符串。适用于小文件或需要将文件内容作为字符串处理的情况。逐行读取文件。每次调用返回一行。适用于大文件或需要逐行处理的情况。一次性读取文件中的所有行。返回一个包含每一行的列表。适用于小文件或需要将所有行存储到内存中处理的情况。
2024-08-04 08:53:54 602
原创 python 读写文件之 open 和 with open() 详细解析
当我们讨论文件操作时,通常会涉及到open()和close()这两个函数。在Python中,open()函数用于打开一个文件,并返回一个文件对象,而close()函数用于关闭之前打开的文件。然而,在实际编程中,使用with open()语句是一种更安全、更简洁的方式来处理文件操作。下面将详细介绍这些概念。
2024-08-04 08:25:59 1587
原创 git push -u origin main 和 git push origin main 的区别
设置跟踪关系会在第一次推送时设置本地分支与远程分支的跟踪关系,而不会设置这种关系。简化后续命令:使用-u选项后,你可以使用简单的git push命令来推送当前分支的更改,而不需要指定远程仓库名称和分支名称。灵活性:如果你不想设置跟踪关系,或者你已经在某个时候设置了跟踪关系,你可以使用。
2024-08-02 10:30:10 731
原创 python 中的 pprint 和 print有什么区别?
如何通过适当的换行和缩进使输出更加清晰。在开发过程中,尤其是在调试复杂数据结构时,在上面的例子中,可以看到。
2024-07-21 23:13:36 347
转载 Pytorch Transformer Tokenizer 常见输入输出实战详解
Transformers,以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的标配。而作为文本数据预处理的主要方法-Tokenizer(分词器)则成为了必不可少的工具。本篇文章以Transformers中使用的AutoTokenizer为例说明其用法。但如果实际场景中使用BERT、ALBERT等预训练模型,原理类似,但需要使用模型相对应的Tokenizer,例如transformers.BertModel对应的Tokenizer是transformers.BertTokenizer。
2024-07-05 09:46:33 1026
原创 # class中的__call__方法解析
使用类:当你需要管理状态、组织复杂的逻辑、扩展功能、或者提高可测试性和复用性时,使用类是更好的选择。使用函数:当你的任务简单、不需要维护状态或扩展时,使用函数是更好的选择。通过权衡这两者的优缺点,可以根据具体的需求选择合适的实现方式。
2024-06-22 18:20:05 1169
原创 llamaindex原理与应用简介(宏观理解)
这是我认为对于 llamaindex 应用的场景概述讲的相对比较好的视频:llamaindex原理与应用简介
2024-06-17 22:06:46 369
原创 通俗解释魔法命令
魔法命令是 IPython 提供的一些特定命令,用来简化和优化日常任务。它们就像是编程中的“魔法棒”,可以让你的代码更简洁、更高效。使用魔法命令,可以让你更专注于解决实际问题,而不是纠结于一些繁琐的操作。
2024-06-17 14:02:24 279
原创 python,ipython 和 jupyter notebook 之间的关系
Python是基础编程语言。IPython是 Python 的一个增强型解释器,提供了更强大的交互式编程功能。是一个基于 Web 的交互式计算环境,最初是 IPython 的扩展,但现在支持多种编程语言(包括 Python)。它利用 IPython 提供的增强功能,为用户提供了一个功能丰富的开发和展示平台。通过将这三者结合使用,用户可以利用 Python 强大的编程能力,享受 IPython 提供的增强交互功能,并通过 Jupyter Notebook 创建和共享丰富的交互式文档。
2024-06-17 13:50:31 1408
转载 用软件快捷键实现MAC或者WINDOWS下快速切换显示器输入源(全网最详细安装讲解)
办公时一般会使用一台主机,两台显示屏扩展。有时也有一台显示屏,一台主机,一台自己的笔记本的搭配。我们想把这台显示屏当台式机的输出屏幕,有时又想作为笔记本的扩展屏使用,最原始的方法切换输入源需要手动去按显示器上的按钮:菜单-信号输入-DP/HDMI。这里我们介绍一种方法通过键盘一键切换!
2024-06-16 13:06:29 3194
原创 使用git stash暂存改动,并备注改动内容
可以在每次使用git stash的时候添加备注,以帮助记住每次暂存改动的目的。这样可以更方便地管理和识别不同的暂存改动。可以使用或者更推荐的方式是。
2024-06-10 11:19:19 689
原创 如何导出conda环境中指定的依赖及其版本到requirements.txt中?
要将 Conda 环境中的依赖及其版本导出到首先,激活你要导出的 Conda 环境。例如,如果你的环境名为myenvConda 自带的conda list命令可以列出环境中的所有包。结合pip工具的pip freeze命令,可以导出符合格式的依赖文件。首先,确保你在当前环境下安装了pip然后使用以下命令生成这将创建一个文件,包含环境中所有包及其版本号。
2024-06-04 00:44:40 923
原创 screen命令常用操作
会话分离,并进入后台运行,你将返回到原来的命令行提示符。会话和窗口,方便在多个任务之间进行切换和操作。的会话,并重新连接到该会话。解释:列出所有正在运行的。会话窗口分离到后台运行。解释:重新连接到一个名为。解释:强制分离当前连接到。键,以创建一个新的窗口。键,以切换到下一个窗口。键,以切换到上一个窗口。这些命令可以帮助你管理。解释:在一个已连接的。解释:在一个已连接的。解释:在一个已连接的。解释:在一个已连接的。键,以杀死当前窗口。
2024-05-21 01:23:09 1289
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人