ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

一个老丁头

已于 2023-11-20 16:20:25 修改

阅读量251

点赞数

分类专栏：论文阅读文章标签：深度学习人工智能

于 2023-09-21 14:53:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43881931/article/details/133134065

版权

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章地址：https://arxiv.org/pdf/2307.15290.pdf

注意：本文使用的是Baichuan13B和Baichuan13B-chat，其他模型结果可能有变化。

（1）预训练数据来源、处理

专业领域

国家标准、领域书籍、领域网页(30000)

通用领域

悟道数据集提取文章

处理方式

文本提取(丢弃了图片、url和表格)、质量过滤(敏感词过滤、语言过滤和有效的文本长度过滤)、重复数据消除(在文章和句子级别上消除重复，最大限度地减少了重复数据对模型训练的影响)。领域语料库有2660w token，通用语料库有27660w token。

（2）微调数据生成方式，附录里面有生成的prompt

25000条专业领域指令数据

单轮对话：根据给定知识，GPT4生成。

多轮对话：根据给定文章，GPT4生成。

生成方式：如下图所示

（3）预训练和微调阶段专业领域数据与通用领域数据不同比例对模型通用能力以及专业能力的影响

预训练阶段

1:5比例最佳。

sft阶段

25000条专业sft数据，SFT的通用语料则从 Alpaca_gpt4_data_zh和Belle进行随机采样而得。

在领域内测试集上的表现，经过SFT之后相比于不进行SFT效果更佳。
在SFT阶段，随着通用语料的增加，在通用测试集上的表现是更差的，也就是模型的通用能力遗忘得更多。
相比于领域内预训练，直接对Chat模型进行SFT，在家装测试集上表现是最佳的(这个可能因为通用模型训练时候已经有大量相关数据)。
在本项目中，1:5的比例混合，在家居测试集上的表现是最佳的。
预训练阶段，混合预训练数据和指令微调数据进行训练，通用能力和领域能力都达到最佳

（4）MIP预训练策略

MIP(Multi-Task Instruction Pretraining)，将领域内预训练语料和领域内instruction tuning语料混合直接对Baichuan-13B-Base进行训练。结果中显示，这种方法相比于其他的方法，在领域内测试集和通用测试集效果是最好的。

（5）专业领域测试集EvalHome的生成（论文附录有样例）

参考资料：垂域大模型的Finetune数据配比问题 - 知乎

论文解读:ChatHome: Development and Evaluation of a Domain-Specifc Language Model for Home Renovation - 知乎

一个老丁头

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

结果中显示，这种方法相比于其他的方法，在领域内测试集和通用测试集效果是最好的。文本提取(丢弃了图片、url和表格)、质量过滤(敏感词过滤、语言过滤和有效的文本长度过滤)、重复数据消除(在文章和句子级别上消除重复，最大限度地减少了重复数据对模型训练的影响)。相比于领域内预训练，直接对Chat模型进行SFT，在家装测试集上表现是最佳的(这个可能因为通用模型训练时候已经有大量相关数据)。在SFT阶段，随着通用语料的增加，在通用测试集上的表现是更差的，也就是模型的通用能力遗忘得更多。25000条专业领域指令数据。
复制链接

扫一扫

专栏目录

一个老丁头 CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

129万+: 周排名

11万+: 总排名

9728: 访问

: 等级

133: 积分

3: 粉丝

9: 获赞

6: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最新评论

ubuntu安装Neo4j
CSDN-Ada助手: 不知道 Neo4j 技能树是否可以帮到你：https://edu.csdn.net/skill/neo4j?utm_source=AI_act_neo4j
ImportError: libcudnn.so.8: cannot open shared object file: No such file or directory
CSDN-Ada助手: 恭喜你写了第11篇博客！看到你遇到的问题，我想建议你可以尝试检查一下你的环境变量设置，或者尝试重新安装一下相关的库文件。希望我的建议能够帮到你，期待你的下一篇博客！加油！
mlflow案例
飞呀不死鸟: 太感谢了，网上看了很多人写的，都没有提到mlflow run本地调用需要在后面加上--env-manager=local，难怪老报错。
flask运行加载两次的问题
CSDN-Ada助手: 恭喜您写出了第7篇博客，标题为“flask运行加载两次的问题”。您的博客内容很实用，解决了很多人的疑惑。接下来，我建议您可以写一些关于flask优化的文章，这对于很多初学者来说也是非常有帮助的。再次感谢您的分享，期待您的下一篇优秀文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
python进程间通信
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。