- x轴是不同的模式:符号学---概率模型---机器学习
- y轴是我们想做的东西(问题领域):感知(了解这是什么东西,能看见这个物体)---(做)推理(基于我看到的东西想象未来可能发生的事情)---(形成自己的)知识(根据数据/现象形成知识)---(最后做)规划(知道所有东西,能有长远的规划)
- 自然语言处理:处于感知阶段,eg:自然语言处理用的最多的机器翻译(人最多几秒反应过来的问题就是感知问题),最初应用在符号学(因为语言是一种符号)
- 计算机视觉:比自然语言处理前进了一点阶段,能在一些图片中做出推理,图片里面都是一些像素,很难用符号解释,计算机视觉大部分使用概率模型/机器学习
- 深度学习:是机器学习的一种,能做自然语言处理,计算机视觉
深度学习在一些应用的突破:
- 图片分类:imagenet是一个比较大的数据集,大概100万张图片
x轴:时间;y轴:错误率;每一个点:paper中的错误率
- 物体检测和分割:物体中图片中是位置&每一个像素是属于什么物体
- 样式迁移:能任意换成我想要的形式,只要找到一个样式的图片,我就能把它换过去
- 人脸合成:
- 文字生成图片:
- 文字生成:
- 无人驾驶:
案例研究 ---广告点击
- 输入:文字搜索关键词,输出:基于文字搜索关键词的广告推荐
- 该问题分为三个阶段:
- 触发:输入关键词时,先给你找到一些关键词出来,
- 点击率预估:(是机器学习的模型)预测看到一个广告之后每一个人点击广告概率
- 排序:根据 点击率 X 广告主支付的竞价 进行排序,按照从大到小的顺序排序,排名高的广告放页面的最前面,排名低的,可能直接被舍弃
步骤2最重要,是一个机器学习的模型,具体步骤:
- 根据广告进行特征提取(提取的特征有:广告主 广告产品的描述信息 产品图片)
- 模型(提取的特征放进模型里)
- 预测点击率
训练:
- 训练数据:过去广告存在某个地方,有记录用户真实的点击行为
- 特征提取
- (放进)模型
甲方(提需求):领域专家
乙方:数据科学家