始智AI wisemodel-CSDN博客

原创北理工开源MindLLM-1.3B-Chat轻量模型

该团队收集了社区公开的中文指令数据，包括人工标注（OLCC）NLP数据模版转换（FireFly，pCLUE，xP3）和LLM生成（Alpaca-GPT-4，BELLE，COIG，MOSS，RefGPT-Fact-zh）多种数据构造方式。模型只计算后，下一个前的所有token的损失，即对于包含i轮对话的序列x1，y1，x2，y2，……，xi，yi，其中xi表示用户指令，yi表示期望的输出，训练目标是让模型基于历史对话x1，y1，x2，y2，……，xi预测输出yi。

2024-01-27 11:06:52 1306

原创体验 | Yann LeCun肯定的照片生成模型，PhotoMaker上线wisemodel社区

首先，从公开数据源，如VoxCeleb和VGGFace等，下载大量名人图片，并通过RetinaNet进行人脸检测和筛选，确保图片质量，之后，使用ArcFace进行ID验证，以识别和选择属于同一身份的脸部区域。PhotoMaker的核心特点是能够通过堆叠多个输入ID图像的嵌入（stacked ID embedding）来保留ID信息，这种方法不仅能够全面地封装同一输入ID的特征，还能够整合不同ID的特征以便于后续的融合。：将艺术作品或旧照片中的人物带入现实，生成逼真的照片。

2024-01-27 11:00:05 1575

原创专题 | 大模型足够应用了吗？

大模型仍在不断的迭代，模型的通用能力等会继续增强。业务流程、行业知识和领域数据可以成为大模型应用的门槛，越是往具体行业应用场景深耕，大模型能力的增强，对应用的效果更佳，而不是取代。通过业务流程和行业知识，可以把要解决的问题拆解成更聚焦和精准小问题，根据各环节的需要合适的调用大模型的能力，最后将相关的内容有机组合和优化，可以让大模型应用的效果显著提高。关于大模型落地的问题，还是从事大模型及相关领域的公司和人员更着急，具体行业领域中有一些已经在开始尝试，有一些在进行关注了，还有更多的可能在等待。

2024-01-27 10:55:57 378

原创源2.0开源千亿参数模型，性能优越，商用友好

源2.0大模型在数理逻辑、数学计算、代码生成能力方面大幅提升，且在HumanEval、AGIEval、GMS-8K等知名评测集上的表现，超过了ChatGPT的精度，接近GPT-4的精度。源2.0模型的训练过程中，降低了互联网数据的比例，增加了百科、书籍、期刊数据，并引入了代码和数学数据。源2.0在模型结构上有所调整和更新，采用了一种局部注意力过滤增强机制（LFA，Localized Filtering-based Attention），学习输入内容之间的关系时，分词过程中会优先考虑自然语言之间的局部关系。

2024-01-27 10:54:38 501

原创具备超强多轮对话能力，南方科大开源SUS-Chat-34B模型

在训练数据迭代的过程中，采用精细化的筛选方法，提炼出与模型能力最相关的数据子集，通过在百亿参数级别的模型上进行了快速多次实验，根据通用任务榜单的综合性能标准，确定了最优的数据分布。这使得SUS-Chat-34B在多数指标，尤其是涉及数理逻辑的基准测试中，因为有更加正确的思考方式，指令对齐带来的模型性能降低的问题有所缓解，同时在部分基准测试中获得了相比于预训练模型Fewshot更高的得分。这种机制的引入显著优化了模型处理多轮对话时对不同内容的关注分布，避免对无关文本的过度关注，成为提高多轮对话性能的关键。

2024-01-27 10:47:32 502

原创低成本扩大输入图像分辨率，华中科大开源Monkey大模型，解锁密集文本问答的潜能

在给定的高分辨率的图像，通过滑动窗口将图像划分为更小的局部区域，然后Monkey对每个图片局部区域的编码器都增加了独立的Lora来识别和吸收每个图像区域的细节敏感特征，从而增强对空间和上下文关系的理解。开源社区发布的Monkey多模态大模型，输入分辨率支持896 x 1344像素，基于具有详细描述的高质量图文数据进行训练，在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试，Monkey在其中16个测试数据集上皆取得SOTA的成绩。

2024-01-27 10:38:33 918

原创探索多厂商异构算力混合训练，智源Aqulia2-70B/34B均发布到wisemodel开源社区

虽然Aquila2-70B-Expr目前已经训练的英文数据量仅为LLama2-70B的大约三分之一，但是除了在MMLU上还落后于LLama2-70B，其他主要评测集上的表现已经超过了LLama2-70B。70B模型是最近刚发布的异构训练实验版。为了展现对下游任务的学习能力，基于同样的指令数据集微调训练得出的AquilaChat2-70B-Expr模型，在主观能力评测中，超过了经过2T数据训练的AquilaChat2-34B，也超过了其它模型在CLCC v2.0主观能力评测的得分。

2023-12-21 14:38:00 1031 1

原创低成本扩大输入图像分辨率，华中科大开源Monkey大模型，解锁密集文本问答的潜能

在给定的高分辨率的图像，通过滑动窗口将图像划分为更小的局部区域，然后Monkey对每个图片局部区域的编码器都增加了独立的Lora来识别和吸收每个图像区域的细节敏感特征，从而增强对空间和上下文关系的理解。开源社区发布的Monkey多模态大模型，输入分辨率支持896 x 1344像素，基于具有详细描述的高质量图文数据进行训练，在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试，Monkey在其中16个测试数据集上皆取得SOTA的成绩。Monkey模型基准测试对比图。

2023-12-20 16:42:42 912

原创具备超强多轮对话能力，南方科大开源SUS-Chat-34B模型，Open LLM Leaderboard领先

在训练数据迭代的过程中，采用精细化的筛选方法，提炼出与模型能力最相关的数据子集，通过在百亿参数级别的模型上进行了快速多次实验，根据通用任务榜单的综合性能标准，确定了最优的数据分布。通过这种策略，模型能够更有效地学习和适应复杂的语言模式和指令，从而在各种评估中表现出更高的性能和更强的适应能力。这使得SUS-Chat-34B在多数指标，尤其是涉及数理逻辑的基准测试中，因为有更加正确的思考方式，指令对齐带来的模型性能降低的问题有所缓解，同时在部分基准测试中获得了相比于预训练模型Fewshot更高的得分。

2023-12-20 16:41:12 532

原创开启GUI图形界面理解和交互的新纪元，开源CogAgent可以自动完成GUI操作

输入具体的图片，CogAgent会先将图片调整为1120 × 1120 和224 × 224两种分辨率的图像，然后分别输入到高分辨率图像编码器（EVA2-CLIP-L）和低分辨率图像编码器（EVA2-CLIP-E）里，两边分别提取图像的序列特征，最后，高分辨率和低分辨率分支中提取的特征序列将被送入一个视觉语言解码器，通过交叉注意力机制（cross-attention）将高分辨率图像特征与低分辨率图像特征以及文本特征进行融合。这种方法既有效处理了高分辨率图像的特征，又有效控制了计算成本。

2023-12-20 15:42:53 1603

原创 W型注意力和“原文复述” 造就长文本问答的高准确率

构造W型数据最常用的方法，就是构造多文档问答任务，将相关文档置于中间位置，其余位置插入大量无关文档，然后给出基于相关问答的问题，让模型根据此问题，精确定位相关文档位置，捕获并理解其信息，给出回答。之前训练的 Qwen-14b-chat-32k-lora，虽然训练数据的配比与 Qwen-14b-chat-yarn-32k 几乎相同，但是多文档问答任务中仅有“文档序号预测” 任务而没有“原文复述” 任务，所以多文档表现不仅无提升，甚至下降。可见，“原文复述” 任务有效提升了模型的长文本能力。

2023-12-20 15:38:52 991

转载 Firefly-LLaMA2-Chinese：低资源增量预训练的开源中文LLaMA2大模型

Firefly系列模型一脉相承，专注于低资源增量预训练，既支持对Baichuan2、Qwen、InternLM等原生中文模型进行增量预训练，也可对LLaMA2、Falcon等英文模型进行中文词表扩充，然后进行增量预训练。Firfly系列模型均已开源到，欢迎大家注册使用。开源的Firefly-LLaMA2-Chinese系列模型，都是中英双语系列模型。以LLaMA2🦙为基座模型，对LLaMA2进行中文词表扩充，使用22GB中英文预训练语料对其进行增量预训练。最后使用大规模中英文多轮对话指令对模型进行训练。

2023-10-27 22:42:29 561 1

wisemodel的博客

原创北理工开源MindLLM-1.3B-Chat轻量模型

原创体验 | Yann LeCun肯定的照片生成模型，PhotoMaker上线wisemodel社区

原创专题 | 大模型足够应用了吗？

原创源2.0开源千亿参数模型，性能优越，商用友好

原创具备超强多轮对话能力，南方科大开源SUS-Chat-34B模型

原创低成本扩大输入图像分辨率，华中科大开源Monkey大模型，解锁密集文本问答的潜能

原创探索多厂商异构算力混合训练，智源Aqulia2-70B/34B均发布到wisemodel开源社区

原创低成本扩大输入图像分辨率，华中科大开源Monkey大模型，解锁密集文本问答的潜能

原创具备超强多轮对话能力，南方科大开源SUS-Chat-34B模型，Open LLM Leaderboard领先

原创开启GUI图形界面理解和交互的新纪元，开源CogAgent可以自动完成GUI操作

原创 W型注意力和“原文复述” 造就长文本问答的高准确率

转载 Firefly-LLaMA2-Chinese：低资源增量预训练的开源中文LLaMA2大模型

转载 ChatGLM3正式发布，开源ChatGLM3-6b系列模型同步上线wisemodel.cn社区

转载 ChatGLM2-6B模型上线wisemodel社区，中国影响最大的开源LM

原创始智AI-wisemodel社区正式上线，目标打造中国版“HuggingFace”

空空如也

空空如也