叶梓,上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、数据治理、人工智能等方面都有着丰富的经验。
![]()

《高质量数据集与大模型应用技术》
一、高质量数据集与数字化转型
- 高质量数据集
- 政策解读、定义与评估标准(准确、完整、一致、时效、可追溯)
- 可用性与合规性(个人信息保护影响、数据出境安全、伦理)
- 采集、整合与标注(授权链哈希+区块链时间戳;双盲+AI预标)
- 公平性与偏见审计(Demographic Parity、Equal Opportunity)
- 前沿趋势说明(合成、多模态、隐私保护等)
- 数字化转型案例分析
- 为达成共识的第一个案例
- 华为数字化转型历程与经验教训
- 面临的挑战(多方服务对象、全球化运营难题等)
- 转型路径:“3+3+5+6+7+2”模式
- 数字化转型的实施路径
- 企业数字化转型的难点与应对策略
- 业务变革趋势与背景
- 行业数字化转型的实践(医疗领域的控费与流程优化)
- 实践案例:某集团的数字化转型(“1+3+4+N”系统架构等)
- 实现路径总结(摸清家底、整体规划、局部先行、渐进推广)
- 数据治理与管理
- 数据治理的定义与重要性
- 数据管理体系(DAMA、DCMM、信通院体系等)的对比与应用
- 数据管理与数据资产的关系
- 数据资产管理体系的构建思路
- AI赋能数据治理
- 标准化对齐(消除口径差异、标准化映射、主数据匹配、数据质控)
- 效率提升(数据清洗、数据提取、血缘发现、ETL脚本、辅助测试)
- 智能发现与洞察(异常发现与溯源、智能去重、分级分类、自动化标注)
- 智能交互式赋能(智能问数、可视化)
二、大模型技术与应用
- 大模型发展现状与技术概览
- 国内外大模型厂商、产品及动态
- 硬件厂商的发展(国内GPU厂商、公有云服务商等)
- 关键技术点(适应低配条件的技术、处理复杂任务的技术)
- 提示词工程与思维链(Chain-of-Thought)方法
- 技术路线选择:微调、RAG、agent、MCP?
- 微调实践(可选)
- Llama-factory支持的模型
- 数据准备:Alpaca和ShareGPT格式的数据集。
- SFT微调步骤(加载数据集、设置参数、保存模型等)。
- 强化学习的微调步骤(PPO、DPO特定数据集、RM等)
- 微调参数详解
- 基于大模型的知识库建设步骤
- 需求分析:明确知识库的目标和应用场景。
- 数据收集与整理:从企业文档、FAQ中提取知识。
- 知识表示:表格知识、向量表示、树状结构、知识图谱等。
- 知识库如何增强大模型性能。
- 实时知识更新与模型同步。
- 案例分析:知识库在客服场景中的应用。
- RAG技术概述
- RAG(Retrieval-Augmented Generation)的定义与优势
- 词嵌入技术基础
- 词嵌入与语义空间
- 向量数据库
- 混合检索与多路召回
- RAG技术实践
- 基模选择(qwen、DS、GLM、书生等)
- 数据准备技巧(OCR、理解表格、半结构化)
- chunk技巧(摘要、重叠、长度选择、构造问题)
- 查询扩展与改写(指代消解、HyDE)
- 提示词优化技巧:(RTGO、Costar、CRISPE、BROKE等)
- 多轮问答技巧(任务框架、信息提取、追问策略、可信度)
- 零/低代码Agent工具
- Dify:低代码ai开发平台
- N8n:更灵活的选择
- Coze:大量的agent可供选择
- MCP的介绍和演示
- 大模型(知识库)应用案例
- 大模型应用落地场景(舆情分析、政策问答、辅助立法、酒店客服等)
- 基于大模型的卫生应用(临床辅助决策、智能流调系统、中医图谱等)
- 基于语义和空间的聚类(市民热线多诉合并)
- 多模态大模型的发展(图像生成、视频生成等)
- Agent技术的应用与最新发展(MCP接口等)
- 智能应用产品的落地
- 核心价值(真实场景与业务闭环、有所不为才能有所为)
- 对标与门槛(资源/行业/技术/生态/标准/成本)
- 持续改进的动力(体验、黏性、个性化、第三方)
三、讨论(不限于以下主题)
- 数字化转型与大模型技术的融合趋势与发展方向
- 企业如何在数字化转型中应用大模型技术,提升竞争力
- 智能应用产品化的实现要素
1255

被折叠的 条评论
为什么被折叠?



