【机器学习】序言与ChatGPT

该课程关注深度学习,特别是ChatGPT,解释其基于预训练的自我监督学习机制。讨论了预训练模型的优势,如跨语言应用,以及ChatGPT的训练方法,包括微调和强化学习。文章提出了ChatGPT研究方向,如精确提示、神经编辑、AI产出物检测和隐私保护。
摘要由CSDN通过智能技术生成

00-李宏毅2023机器学习

课程相关网站:

  • https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php

  • https://github.com/Fafa-DL/Lhy_Machine_Learning

prerequisite

  1. 高等数学
  2. 线性代数
  3. 概率论
  4. 可以读懂/写一些python代码

课程简介

  1. focus on DL deep learning

    • 但也可以作为ML的第一堂课
  2. covering broad aspects

    • 包括尽可能多的技术
  3. 前瞻性

  4. 应用导向

在这里插入图片描述

作业说明

作业包含:

  1. report —— 一些Q&A
  2. Leaderboard —— Kaggle or JudgeBoi
    • simple,medium,strong, boss baseline
  3. 所有的作业都可以使用Google Colab
  4. 但是更多的运算资源可以获得更好的成绩

共有15个assignments!


01-Chat GPT intro

常见误解

  1. 罐头学习
    在这里插入图片描述

  2. 网络搜索

在这里插入图片描述

正确的理解:文字接龙

在这里插入图片描述

在这里插入图片描述

实际上function的输入还包括同一个session中的历史记录:

在这里插入图片描述

这个模型非常复杂,可能有1700亿个以上的参数!!!

ChatGPT中的function的参数是怎么找出来的?

在这里插入图片描述

ChatGPT是怎么被训练出来的?

pre-train == self-supervised learning == foundation model

  1. 机器可以做什么?
    • 给定一系列输入和输出,机器可以自己寻找出一个f,使得f(x) = y
  2. 监督式学习:(以英文翻译中文为例)
    • 通过大量成对资料,机器自己寻找出f函数,并且获得结果
      • 显然,ChatGPT不可能单纯是监督式学习!、
        • 可以提供的成对资料是非常有限的!
        • 我们需要无痛地制造出成对资料,例如:
          • 网络上的每一个句子,都可以一分为二,前一部分作为输入,后一部分作为输出
          • 从而我们制造出了大量的成对资料!

GPT1 ==> GPT2 ==> GPT3:训练是单纯的接龙,无需人类老师介入!

ChatGPT还包括了微调finetune:

在这里插入图片描述

  • 预训练&自督导式学习:通过大量预料自己生成标注的数据集
  • 督导式学习:人类老师给定标注好的数据集
  • 增强式学习:人类老师只需要给出正/负反馈

预训练的帮助:

在这里插入图片描述

在这里插入图片描述

预训练模型相当神奇!对于机器来说,所有人类的语言都没有差别。同样的任务在一种语言上进行了预训练&微调,可以应用与其他语言!

ChatGPT带来的研究方向

1. 如何精准提出需求

学名:prompting

是否有比人工尝试更有效的方法提出合理的prompt

2. ChatGPT的预训练资料只到2021年

如何进行有效的neural editing

神经网络是一个整体,有时为了修改一个小错误可能会造成更大的错误

在这里插入图片描述

3. 侦测AI生成的物件

如何侦测某产出物是否为AI生成的?

4. 隐私保护?

如何进行machine unlearnling

ChatGPT生成过程

  1. 学习文字接龙(预训练,通过自监督学习,自动生成有答案的问题)
  2. 人类老师引导文字接龙的方向(监督学习,正确答案由人工提供)
  3. 模仿人类老师的喜好
    • (同样输入有不同输出,人类老师只需要告诉ChatGPT哪个答案更好)
    • 从而生成一个Teacher Model,模仿人类老师的喜好
  4. 用强化学习向模拟老师学习
    • 输入的问题&GPT的答案输入Teacher Model中得到分数(Reward)
    • 使用RL技术调整GPT的参数,获得最高的Reward
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值