大模型讲师数据治理讲师叶梓《高质量数据集与大模型应用技术》培训提纲

原创于 2025-11-05 12:30:00 发布 · 924 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能培训 #大模型讲师 #人工智能讲师 #数据治理讲师 #数据治理 #大数据讲师 #数据讲师

人工智能讲师专栏收录该内容

100 篇文章

订阅专栏

AI的出现，是否能替代IT从业者？ 10w+人浏览 1.3k人参与

叶梓，上海交通大学计算机专业博士毕业，在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作，曾先后作为技术经理或总工程师，负责大型信息平台、市级信息平台的建设工作，并参与省级信息平台的建设；主持制定了包括多份信息化工程标准。在大数据应用、数据治理、人工智能等方面都有着丰富的经验。

《高质量数据集与大模型应用技术》

一、高质量数据集与数字化转型

高质量数据集
- 政策解读、定义与评估标准（准确、完整、一致、时效、可追溯）
- 可用性与合规性（个人信息保护影响、数据出境安全、伦理）
- 采集、整合与标注（授权链哈希+区块链时间戳；双盲+AI预标）
- 公平性与偏见审计（Demographic Parity、Equal Opportunity）
- 前沿趋势说明（合成、多模态、隐私保护等）
数字化转型案例分析
- 为达成共识的第一个案例
- 华为数字化转型历程与经验教训
  - 面临的挑战（多方服务对象、全球化运营难题等）
  - 转型路径：“3+3+5+6+7+2”模式
数字化转型的实施路径
- 企业数字化转型的难点与应对策略
- 业务变革趋势与背景
- 行业数字化转型的实践（医疗领域的控费与流程优化）
- 实践案例：某集团的数字化转型（“1+3+4+N”系统架构等）
- 实现路径总结（摸清家底、整体规划、局部先行、渐进推广）
数据治理与管理
- 数据治理的定义与重要性
- 数据管理体系（DAMA、DCMM、信通院体系等）的对比与应用
- 数据管理与数据资产的关系
- 数据资产管理体系的构建思路
AI赋能数据治理
- 标准化对齐（消除口径差异、标准化映射、主数据匹配、数据质控）
- 效率提升（数据清洗、数据提取、血缘发现、ETL脚本、辅助测试）
- 智能发现与洞察（异常发现与溯源、智能去重、分级分类、自动化标注）
- 智能交互式赋能（智能问数、可视化）

二、大模型技术与应用

大模型发展现状与技术概览
- 国内外大模型厂商、产品及动态
- 硬件厂商的发展（国内GPU厂商、公有云服务商等）
- 关键技术点（适应低配条件的技术、处理复杂任务的技术）
- 提示词工程与思维链（Chain-of-Thought）方法
- 技术路线选择：微调、RAG、agent、MCP？
微调实践（可选）
- Llama-factory支持的模型
- 数据准备：Alpaca和ShareGPT格式的数据集。
- SFT微调步骤（加载数据集、设置参数、保存模型等）。
- 强化学习的微调步骤（PPO、DPO特定数据集、RM等）
- 微调参数详解
基于大模型的知识库建设步骤
- 需求分析：明确知识库的目标和应用场景。
- 数据收集与整理：从企业文档、FAQ中提取知识。
- 知识表示：表格知识、向量表示、树状结构、知识图谱等。
- 知识库如何增强大模型性能。
- 实时知识更新与模型同步。
- 案例分析：知识库在客服场景中的应用。
RAG技术概述
- RAG（Retrieval-Augmented Generation）的定义与优势
- 词嵌入技术基础
  - 词嵌入与语义空间
  - 向量数据库
  - 混合检索与多路召回
- RAG技术实践
  - 基模选择（qwen、DS、GLM、书生等）
  - 数据准备技巧（OCR、理解表格、半结构化）
  - chunk技巧（摘要、重叠、长度选择、构造问题）
  - 查询扩展与改写（指代消解、HyDE）
  - 提示词优化技巧：（RTGO、Costar、CRISPE、BROKE等）
  - 多轮问答技巧（任务框架、信息提取、追问策略、可信度）
零/低代码Agent工具
- Dify：低代码ai开发平台
- N8n：更灵活的选择
- Coze：大量的agent可供选择
- MCP的介绍和演示
大模型（知识库）应用案例
- 大模型应用落地场景（舆情分析、政策问答、辅助立法、酒店客服等）
- 基于大模型的卫生应用（临床辅助决策、智能流调系统、中医图谱等）
- 基于语义和空间的聚类（市民热线多诉合并）
- 多模态大模型的发展（图像生成、视频生成等）
- Agent技术的应用与最新发展（MCP接口等）
智能应用产品的落地
- 核心价值（真实场景与业务闭环、有所不为才能有所为）
- 对标与门槛（资源/行业/技术/生态/标准/成本）
- 持续改进的动力（体验、黏性、个性化、第三方）