大模型讲师数据治理讲师叶梓《高质量数据集与大模型应用技术》培训提纲

AI的出现,是否能替代IT从业者? 10w+人浏览 1.3k人参与

叶梓,上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、数据治理、人工智能等方面都有着丰富的经验。


《高质量数据集与大模型应用技术》

一、高质量数据集与数字化转型

  1. 高质量数据集
    • 政策解读、定义与评估标准(准确、完整、一致、时效、可追溯)
    • 可用性与合规性(个人信息保护影响、数据出境安全、伦理)
    • 采集、整合与标注(授权链哈希+区块链时间戳;双盲+AI预标)
    • 公平性与偏见审计(Demographic Parity、Equal Opportunity)
    • 前沿趋势说明(合成、多模态、隐私保护等)
  2. 数字化转型案例分析
    • 为达成共识的第一个案例
    • 华为数字化转型历程与经验教训
      • 面临的挑战(多方服务对象、全球化运营难题等)
      • 转型路径:“3+3+5+6+7+2”模式
  3. 数字化转型的实施路径
    • 企业数字化转型的难点与应对策略
    • 业务变革趋势与背景
    • 行业数字化转型的实践(医疗领域的控费与流程优化)
    • 实践案例:某集团的数字化转型(“1+3+4+N”系统架构等)
    • 实现路径总结(摸清家底、整体规划、局部先行、渐进推广)
  4. 数据治理与管理
    • 数据治理的定义与重要性
    • 数据管理体系(DAMA、DCMM、信通院体系等)的对比与应用
    • 数据管理与数据资产的关系
    • 数据资产管理体系的构建思路
  5. AI赋能数据治理
    • 标准化对齐(消除口径差异、标准化映射、主数据匹配、数据质控)
    • 效率提升(数据清洗、数据提取、血缘发现、ETL脚本、辅助测试)
    • 智能发现与洞察(异常发现与溯源、智能去重、分级分类、自动化标注)
    • 智能交互式赋能(智能问数、可视化)

二、大模型技术与应用

  1. 大模型发展现状与技术概览
    • 国内外大模型厂商、产品及动态
    • 硬件厂商的发展(国内GPU厂商、公有云服务商等)
    • 关键技术点(适应低配条件的技术、处理复杂任务的技术)
    • 提示词工程与思维链(Chain-of-Thought)方法
    • 技术路线选择:微调、RAG、agent、MCP?
  2. 微调实践(可选)
    • Llama-factory支持的模型
    • 数据准备:Alpaca和ShareGPT格式的数据集。
    • SFT微调步骤(加载数据集、设置参数、保存模型等)。
    • 强化学习的微调步骤(PPO、DPO特定数据集、RM等)
    • 微调参数详解
  3. 基于大模型的知识库建设步骤
    • 需求分析:明确知识库的目标和应用场景。
    • 数据收集与整理:从企业文档、FAQ中提取知识。
    • 知识表示:表格知识、向量表示、树状结构、知识图谱等。
    • 知识库如何增强大模型性能。
    • 实时知识更新与模型同步。
    • 案例分析:知识库在客服场景中的应用。
  4. RAG技术概述
    • RAG(Retrieval-Augmented Generation)的定义与优势
    • 词嵌入技术基础
      • 词嵌入与语义空间
      • 向量数据库
      • 混合检索与多路召回
    • RAG技术实践
      • 基模选择(qwen、DS、GLM、书生等)
      • 数据准备技巧(OCR、理解表格、半结构化)
      • chunk技巧(摘要、重叠、长度选择、构造问题)
      • 查询扩展与改写(指代消解、HyDE)
      • 提示词优化技巧:(RTGO、Costar、CRISPE、BROKE等)
      • 多轮问答技巧(任务框架、信息提取、追问策略、可信度)
  5. 零/低代码Agent工具
    • Dify:低代码ai开发平台
    • N8n:更灵活的选择
    • Coze:大量的agent可供选择
    • MCP的介绍和演示
  6. 大模型(知识库)应用案例
    • 大模型应用落地场景(舆情分析、政策问答、辅助立法、酒店客服等)
    • 基于大模型的卫生应用(临床辅助决策、智能流调系统、中医图谱等)
    • 基于语义和空间的聚类(市民热线多诉合并)
    • 多模态大模型的发展(图像生成、视频生成等)
    • Agent技术的应用与最新发展(MCP接口等)
  7. 智能应用产品的落地
    • 核心价值(真实场景与业务闭环、有所不为才能有所为)
    • 对标与门槛(资源/行业/技术/生态/标准/成本)
    • 持续改进的动力(体验、黏性、个性化、第三方)

三、讨论(不限于以下主题)

  1. 数字化转型与大模型技术的融合趋势与发展方向
  2. 企业如何在数字化转型中应用大模型技术,提升竞争力
  3. 智能应用产品化的实现要素
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值