自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 tiktoken special token

【代码】tiktoken special token。

2024-08-29 10:18:33 113

原创 从0开始训练自己的tokenizer

以下是对这三种分词器的详细介绍。Hugging Face Tokenizer 是 Hugging Face 生态系统中的一个关键组件,用于自然语言处理(NLP)任务中的文本预处理。Tokenizer 的主要功能是将文本转换为模型可以处理的格式,如 token IDs,以便用于各种 NLP 模型的输入。是一个大型的中文文本数据集,通常用于训练和评估自然语言处理(NLP)模型。它包含从网络上收集的各种类型的中文文本数据,涵盖了新闻、博客、社交媒体、论坛、技术文档等多种文本来源。

2024-08-27 16:30:04 522

原创 语言模型的困惑度(Perplexity)

如果模型在给定的句子中每个词的预测概率都很高,那么模型的Perplexity会很低,表明模型对这个句子的理解很强。如果模型的预测概率很低,Perplexity会很高,说明模型对这个句子的预测不准确。在实际应用中,Perplexity 可以帮助我们比较不同的语言模型或同一个模型在不同训练阶段的表现。Perplexity 主要用于评估语言模型在处理语言的能力,而在实际应用中,它通常与其他指标一起使用,比如 BLEU 分数(用于机器翻译的评价)或 ROUGE 分数(用于文本摘要的评价),以全面评估模型的性能。

2024-08-22 14:34:26 234

原创 Beam Search 入门

Beam Search 是一种广泛用于自然语言处理(NLP)和搜索问题中的启发式搜索算法,尤其在生成任务(如机器翻译、文本生成)中应用广泛。它的核心思想是通过限制搜索空间,在合理的时间和计算资源内找到接近最优的解。

2024-08-22 13:52:50 782

原创 句子嵌入训练 常用损失函数

此损失仅期望单个句子,没有任何标签。通过随机抽样自动创建正对和负对,这样正对由两个相同的句子组成,负对由两个不同的句子组成。BatchAllTripletLoss 接收包含(句子,标签)对的批次,并计算所有可能的有效三元组的损失,即锚点和正例必须具有相同的标签,锚点和负例必须具有不同的标签。此损失函数非常适合训练具有正对(例如(query,relevant_doc))的检索设置的嵌入,因为它会在每批。适用于只有正对,例如,只有相似文本对,如释义对、重复问题对、(查询、响应)对或(源语言、目标语言)对。

2024-08-20 10:38:42 280

原创 文本相似 mean pooling

【代码】文本相似 mean pooling。

2024-08-14 16:52:51 125

原创 通用文本嵌入(GTE)模型,使用入门

通用文本嵌入(GTE)模型。这使得 GTE 模型可以应用于文本嵌入的各种下游任务,包括信息检索、语义文本相似性、文本重排等。它通过一系列任务和数据集,对各种文本嵌入模型的性能进行评估,从而为研究者和开发者提供一个客观、全面的比较标准。MTEB的中文版(C-MTEB)是针对中文文本嵌入模型的评测基准。它涵盖了分类、聚类、检索、排序、文本相似度、STS(语义文本相似度)等多个经典任务,并提供了丰富的中文数据集。文本嵌入是一种将文本(如单词、句子或段落)映射到一个连续的数值向量空间的技术。

2024-08-14 10:56:38 365

原创 策略梯度(Policy Gradient, PG)算法

不同的动作应该有不同的价值评估。同一局游戏中的所有动作都用同一个奖励项来衡量是不合理的,因为有些动作是有益的,有些是有害的。整局游戏的结果并不能代表每个动作的质量。4.2 动作回报加权+折扣。:一条轨迹,一个回合。:该条轨迹的的总奖励。

2024-08-05 14:29:07 364

原创 Pendulum-v1 with PPO 入门

Pendulum-v1 是 OpenAI Gym 中的一个经典控制环境,用于模拟一根杆子在重力作用下的摆动。杆子的一端固定在铰链上,另一端可以自由摆动。环境的目标是通过向杆子施加力矩来控制其摆动,使其保持竖直。杆子的角度杆子的角速度杆子的位置杆子的线速度环境的动作空间是一个连续空间,表示施加在杆子上的力矩的大小。Pendulum-v1 的奖励函数是基于杆子的角度和角速度计算的。杆子越竖直,角速度越慢,奖励就越高。

2024-07-24 14:53:10 581

原创 MountainCarContinuous-v0 with PPO 入门

MountainCarContinuous-v0 是一个经典的强化学习环境,主要用于测试连续动作空间的算法。它是 OpenAI Gym 中的一个环境,模拟了一个小车在一个山谷中的运动,目标是通过控制小车的加速度,使其能够爬上山顶。

2024-07-19 11:25:00 339

原创 MountainCar-v0 入门

MountainCar-v0 是一个经典的强化学习环境,属于 OpenAI Gym 提供的一部分。它的目标是帮助研究和实验基本强化学习算法。

2024-07-11 11:33:51 390

原创 CartPole-v1 入门,使用DQN

CartPole-v1 是 OpenAI Gym 中一个经典的控制学习环境。它模拟一根杆子垂直放置在小车上,小车可以在水平方向上移动。游戏的目标是通过控制小车左右移动来保持杆子竖直,尽可能长时间地不倒杆。

2024-07-04 10:35:23 584

原创 CliffWalking入门

悬崖行走问题是强化学习中一个经典的入门级问题。它描述了一个智能体从起点 S 到达目标 G 的网格世界环境,其中存在悬崖会让智能体掉落并重置到起点。智能体的目标是通过学习最优策略,尽可能减少到达目标所需的步数。Q-Learning 是一种常用的强化学习算法,用于解决 CliffWalking 问题。它使用 Q 表来存储每个状态-动作对的期望奖励。智能体会根据 Q 表来选择动作,并不断更新 Q 表以提高策略的性能。

2024-07-03 11:11:45 1790

原创 q-learing

强化学习是一种机器学习方法,强调通过与环境的互动来学习行为策略,以最大化累积奖励。Q-learning 是一种无模型(model-free)的强化学习算法,它通过学习一个 Q 函数来估计每个状态-动作对的期望回报。

2024-06-28 14:49:20 1351

原创 antd input

宽度默认是父元素的100%

2024-06-26 13:38:33 279

原创 antd space组件

默认元素都是横向排列direction 改变排列方向。内部样式 使用inline-flex,

2024-06-21 17:13:41 215

原创 windows休息提醒定时器

简单的windows周期提醒定时器,到时闪烁提醒。

2024-06-11 17:08:19 233

windows休息提醒定时器

“20-20-20”护眼法则的实施方法是:每隔20分钟,至少远眺6米(即20英尺)远的地方,持续眺望20秒。在眺望过程中,不要眯眼,要全神贯注,凝视并辨识远处物体的轮廓,使眼睛处于一种活动的过程中,可以起到调节灵敏度的作用。 “20-20-20”护眼法则适用于所有长时间用眼的人群,尤其是经常使用电子产品的人群,如学生、上班族等。这个法则可以帮助缓解眼睛疲劳,预防近视等问题。但需要注意的是,该法则并不能完全消除所有导致近视的因素,因此,除了遵循这个法则外,还需要注意用眼姿势、环境光线等其他因素,才能更好地保护眼睛健康。

2024-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除