束缚764-CSDN博客

原创创新项目实训--解题页面前端2

【代码】创新项目实训--解题页面前端2。

2024-06-24 13:05:13 613

原创创新项目实训--解题页面前端

这篇博客介绍的内容是有关于网页前端的该组件显示聊天记录，并支持文本、图片、文件等多种类型的消息。

2024-06-24 12:57:06 1031

原创创新项目实训--引入RAG技术生成题目

这部分代码的主要作用是实现一个基于聊天模型的交互系统，用于生成数学题并根据提供的上下文和历史记录生成相应的答案。首先，导入所需要的包。

2024-06-24 12:43:05 230

原创创新项目实训--题目向量编码

这段代码的作用是将一组数学问题的文本数据转化为向量，并使用 FAISS 向量数据库进行存储，以便后续进行快速的相似性搜索。

2024-06-24 12:36:46 374

原创创新项目实训-基于大模型的小学语数英辅助教育平台（6）

HuggingFace中封装了prefix的相关操作的实现，本次主要初次探索一下其使用，首先在已经适配好的模型上进行试验，其次手动配置使其适配自己的模型，为下一步配置Qwen并进行微调做准备。

2024-05-30 21:27:16 355

在推理过程中（尤其是数学推理），单个错误可能导致整个解答无效，而现有的自动回归模型缺乏自我纠错的机制，一旦解决方案偏离正确路径，通常就无法恢复。让大模型生成多个候选解答，然后通过验证器打分，并选择评分最高的作为结果。因此，这篇博客介绍的是采用COT思维链技术，让大模型依据提问多次返回结果，再从中选择出结果最好的内容。这段代码的作用是创建一个聊天模型系统，用于处理用户消息，并生成合适的响应。这段代码主要是为了设置一个交互式的聊天系统，该系统能够根据用户提供的会话ID管理聊天历史记录，并生成数学题和答案。

2024-05-28 11:17:54 161

原创创新项目实训-基于大模型的小学语数英辅助教育平台（5）

引入COT技术。

2024-05-20 11:16:32 222

原创创新项目实训-COT技术的总结与应用

在审阅阶段随机抽样训练数据中的问题，插入离题句子，创建包含多样化噪声上下文的示例问题，引导大模型明确指出在推理过程中应关注的关键句子。由于大模型是从语料库中学习的模型参数，并且使用时参数是固定的，因此大模型中的知识是有限的，而引入外部知识补足大模型的缺陷就显得尤为重要。集成学习在CoT中也同样适用，wang等人提出了三种方法来实现理由增强的集成（Rationale-Augmented Ensembles），这些方法的关键在于从输出空间中进行推理采样，通过不同的方式引入随机性和多样性来提高模型的性能。

2024-05-20 11:14:30 1182

原创创新项目实训-PAI平台微调

可以观察到CPU和GPU使用率如上，接下来还可以进一步部署模型。调用DLC资源开始训练，训练平台可以监督训练过程，截图如下。

2024-05-13 11:35:30 236 1

原创创新项目实训--基于大模型的小学语数英辅助教育平台（4）

实现了FreeChat界面，用户可与大模型自由对话。

2024-05-08 01:03:33 193 1

原创创新项目实训-PAI平台的初步尝试

在左侧导航栏单击工作空间列表，在工作空间列表页面中单击待操作的工作空间名称，进入对应工作空间内。在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练（DLC），在分布式训练任务页面中单击新建任务，进入新建任务页面。进入DSW页面，登录PAI控制台，在概览页面选择目标地域，在左侧导航栏单击工作空间列表，在工作空间列表页面中单击待操作的工作空间名称，进入对应工作空间内。在工作空间页面的左侧导航栏选择模型开发与训练 > 交互式建模（DSW），进入DSW页面。配置好相关参数后，点击提交任务，即可开始训练。

2024-05-07 11:24:49 306

原创创新项目实训--基于大模型的小学语数英辅助教育平台（3）

由于在模型的微调训练中需要用到知识点标签，在获得基础的数据集后，对数据集进行处理，打上知识点标签。设计、编写了一个dataProcess程序来完成这个任务。这个程序主要由以下几个部分组成。1.调用接口。2.提示词与请求函数。3.处理response的代码4.异常捕捉与处理代码将数据集分割为几部分，每人负责标记一部分数据。

2024-04-28 22:28:06 683

原创创新项目实训-数据预处理

该数据集包含了210,000条中国小学数学题，并将数据集分为train，test，valid集。由于微调大模型的任务需要，我们要给每道题目附上标签，标签代表该题所包含的知识点或者题目类型。1利用信息检索课程中学习的知识，把题目和知识点分别编成向量，比较相似度从题库里找匹配的知识点。最后，在同学院的老师交流后，老师提供给我们一种全新的思路，利用大模型进行文本分类。同时，为了加快处理数据集的速度，将数据集分为5份，分给小组成员。3采用无监督训练，自监督训练的方式，不需要标签。2循环调用大模型进行文本分类。

2024-04-27 20:52:13 377

weixin_61665230的博客