00-李宏毅2023机器学习
课程相关网站:
-
https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php
-
https://github.com/Fafa-DL/Lhy_Machine_Learning
prerequisite
- 高等数学
- 线性代数
- 概率论
- 可以读懂/写一些python代码
课程简介
-
focus on DL deep learning
- 但也可以作为ML的第一堂课
-
covering broad aspects
- 包括尽可能多的技术
-
前瞻性
-
应用导向
作业说明
作业包含:
- report —— 一些Q&A
- Leaderboard —— Kaggle or JudgeBoi
- simple,medium,strong, boss baseline
- 所有的作业都可以使用Google Colab
- 但是更多的运算资源可以获得更好的成绩
共有15个assignments!
01-Chat GPT intro
常见误解
-
罐头学习
-
网络搜索
正确的理解:文字接龙
在这里插入图片描述
实际上function的输入还包括同一个session中的历史记录:
这个模型非常复杂,可能有1700亿个以上的参数!!!
ChatGPT中的function的参数是怎么找出来的?
ChatGPT是怎么被训练出来的?
pre-train == self-supervised learning == foundation model
- 机器可以做什么?
- 给定一系列输入和输出,机器可以自己寻找出一个f,使得f(x) = y
- 监督式学习:(以英文翻译中文为例)
- 通过大量成对资料,机器自己寻找出f函数,并且获得结果
- 显然,ChatGPT不可能单纯是监督式学习!、
- 可以提供的成对资料是非常有限的!
- 我们需要无痛地制造出成对资料,例如:
- 网络上的每一个句子,都可以一分为二,前一部分作为输入,后一部分作为输出
- 从而我们制造出了大量的成对资料!
- 显然,ChatGPT不可能单纯是监督式学习!、
- 通过大量成对资料,机器自己寻找出f函数,并且获得结果
GPT1 ==> GPT2 ==> GPT3:训练是单纯的接龙,无需人类老师介入!
ChatGPT还包括了微调finetune:
- 预训练&自督导式学习:通过大量预料自己生成标注的数据集
- 督导式学习:人类老师给定标注好的数据集
- 增强式学习:人类老师只需要给出正/负反馈
预训练的帮助:
预训练模型相当神奇!对于机器来说,所有人类的语言都没有差别。同样的任务在一种语言上进行了预训练&微调,可以应用与其他语言!
ChatGPT带来的研究方向
1. 如何精准提出需求
学名:prompting
是否有比人工尝试更有效的方法提出合理的prompt
2. ChatGPT的预训练资料只到2021年
如何进行有效的neural editing?
神经网络是一个整体,有时为了修改一个小错误可能会造成更大的错误
3. 侦测AI生成的物件
如何侦测某产出物是否为AI生成的?
4. 隐私保护?
如何进行machine unlearnling
ChatGPT生成过程
- 学习文字接龙(预训练,通过自监督学习,自动生成有答案的问题)
- 人类老师引导文字接龙的方向(监督学习,正确答案由人工提供)
- 模仿人类老师的喜好
- (同样输入有不同输出,人类老师只需要告诉ChatGPT哪个答案更好)
- 从而生成一个Teacher Model,模仿人类老师的喜好
- 用强化学习向模拟老师学习
- 输入的问题&GPT的答案输入Teacher Model中得到分数(Reward)
- 使用RL技术调整GPT的参数,获得最高的Reward