![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
关于语言模型
文章平均质量分 73
eric-sjq
小思框架创始人,擅长深度学习和大数据挖掘与处理。主要研究自然语言处理技术以及机器视觉。
展开
-
利用清韵千言-小思构建AI生成模拟新闻应用
通过精心设计prompt,我们可以利用清韵千言-小思接口生成各种类型的新闻内容。这种方法不仅可以帮助我们快速生成大量高质量的新闻稿件,还可以作为自动化新闻生成的基础。随着技术的进步,未来我们甚至可以看到更加复杂和精细的新闻生成应用。今天,我们将介绍如何利用清韵千言-小思这个强大的AI大语言模型接口,创建一个简单的AI生成模拟新闻应用。我们将重点讨论如何设计有效的prompt以生成高质量且具有新闻价值的内容。为了从清韵千言-小思中获取高质量的新闻内容,我们需要精心设计prompt。原创 2024-08-05 12:34:35 · 86 阅读 · 0 评论 -
清韵千言-小思——一个强大的AI大语言模型接口
清韵千言-小思 是一款由我们的团队自主研发的大规模语言模型接口。该模型不仅能够处理各种自然语言任务,而且它的大部分能力已经超越了GPT-3.5等模型。尽管如此,小思也有一些特定的限制条件,比如不支持上下文记忆、不支持并发请求等。下面将详细介绍这些特点以及如何使用它。原创 2024-08-05 11:41:57 · 475 阅读 · 0 评论 -
【基础模型】开始构建我们自己的大语言模型3:训练我们的模型(内附免费完整训练资源)
在本篇博文中,我们介绍了如何设置训练循环来训练一个语言模型,包括监控训练进度、保存模型检查点、以及进行中间测试。这些步骤对于训练任何深度学习模型都是非常重要的,希望这篇博文能帮助你更好地理解和实践模型训练的过程。原创 2024-08-03 15:59:37 · 607 阅读 · 0 评论 -
【基础模型】开始构建我们自己的大语言模型2:模型构建部分
首先,我们需要一个函数来定义并构建我们的模型。这个函数将接收多个参数,如词汇表大小(vocab_size)、嵌入维度()、RNN单元数(rnn_units)、批量大小(batch_size)以及模型版本(mt)和窗口大小(window,目前他没用但以后我们优化模型的时候会用到)。这是GRU的简单流程图:fill:#333;color:#333;color:#333;fill:none;输入层: 接收当前时间步的输入数据重置门: 即sigmoid函数 决定新输入与旧记忆的结合。原创 2024-07-26 15:45:44 · 524 阅读 · 0 评论 -
开始构建我们自己的大语言模型:数据处理部分
接上集,本章我们将深入说一下大语言模型数据处理部分的细节,并直接提供本部分的完整代码以及免费公开的的配套资源。原创 2024-07-18 22:08:04 · 1435 阅读 · 0 评论 -
将独热码应用到神经网络中
接上回,本文继续说如何用TensorFlow将独热编码应用到一个简单的神经网络中,以实现从一段随机文本到另一段随机文本的转换。原创 2024-07-12 23:13:44 · 552 阅读 · 0 评论 -
【创新模型解析】揭秘Tiny GRUs(TGS):一种面向大语言模型训练的高效网络架构
在深度学习和自然语言处理领域,我们不断探索更高效、更具表现力的模型结构。今天,我将为您介绍一款新颖的大语言模型训练架构——Tiny GRUs(简称TGS)。这种模型架构凭借其独特的设计思路与卓越的性能特点,在大规模语言任务上能够展现出显著的技术优势。TGS模型架构的核心设计理念是精细化和层次化。其结构采用了一系列嵌套的GRU(门控循环单元)层,这是一种擅长捕捉序列数据长期依赖关系的递归神经网络结构。原创 2024-04-21 12:29:23 · 273 阅读 · 1 评论 -
【深度解析】低资源环境下的循环神经网络:用RNN挑战Transformer的实践策略
在资源受限的情况下,通过精心设计和优化的RNN模型,以及创新的数据加载与训练流程,我们能够在一定程度上缩小与先进Transformer模型的性能差距。长远来看,随着硬件技术和新型模型架构的发展,低资源环境下的NLP解决方案将进一步得到改善与丰富。尽管一维卷积可以在一定程度上缓解RNN中的梯度消失问题,但相比于Transformer的自注意力机制,它无法灵活地捕获任意位置之间的依赖关系,且随着卷积核尺寸增加,内存开销和计算复杂度也会迅速增长,这在低资源环境下并不理想。原创 2024-03-10 18:13:37 · 1112 阅读 · 1 评论