Datawhale AI 夏令营第四期 AIGC Task2-CSDN博客

本文链接：https://blog.csdn.net/weixin_43680622/article/details/141198076

活动简介

活动链接：Datawhale AI 夏令营（第四期）
在这里插入图片描述
以及AIGC里面的本次任务说明：Task 2 精读代码，实战进阶

和上次任务一样，链接里的教程非常详细，对小白非常友好，从使用AI助手理解代码到使用AI助手生成合适的提示词，手把手教！（此次任务关键是教会我们如何使用AI提升工作效率，教会我们学习的方法，授人以鱼不如授人以渔！）
具体细节我就不赘述了，参看教程即可，下面我主要就此次Task2任务学到了哪些内容作一个总结。

个人总结

基础知识

首先呢，是先带我们了解了一下AI生图前沿，这能激发我们学习的乐趣，不仅仅因为AI生图是未来人工智能的重点方向。比如说：
1.现在生成的图片能起到一个以假乱真的效果，这是让人不可思议的，从而衍生出我们的两种挑战欲望（正向思维：不断改进技术，生成更逼真的图像；逆向思维：如何区分一张图像是否是AI生成的）。
2.然后是教程里总结的一段话我觉得特别好，所以贴上来：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图
对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容
对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

接下来的话，是讲了一下AI生图的历史。基本就是随着深度学习的发展，AI生图也蓬勃发展了嘛。首先就是普通的深度网络，卷积（关键是提取图像特征），有了这个backbone，能够很好地提取特证就能很好地做图像分类任务，也能很好地用于图像生成。后来ResNet的出现直接大大加深了深度网络的层数，也就是网络越深效果越好，突破了这个层数的限制，无疑是一个里程碑。然后下一个里程碑呢，就是大模型时代了，教程中提到的OpenAI推出的DALL-E中的CLIP（CLIP具体是不是DALL-E用到的记不清了，反正它是OpenAI的）就是大模型，我记得它好像是基于ViT（Vision Transformer）+对比学习来的。CLIP确实是一个里程碑（出货最让我佩服的一个是ResNet的何恺明，一个就是OpenAI了）。
以上呢，就是总结的我在知识部分产生的一些感想。

实践感受

实践部分呢，自然就是先学习如何使用AI工具啦，毕竟磨刀不误砍柴工嘛。不过我最早用的工具是ChatGPT，后边就习惯一直用它了（现在免费的已经出到了ChatGPT-4o版本，好处是能上传文档，坏处是有次数限制）。后来由于网络的不稳定我还使用了另一个工具Kimi（好处是突破了文本限制，能发送大量文档和文字）。通义千问和文心一言也有使用过，也不错，可以看出国内的大模型确实是追上来了，不过还是存在ChatGPT那些先入为主（率先占据市场）的问题。
ChatGPT：
在这里插入图片描述
Kimi：

通义千问：

文心一言：

学会了AI工具的使用，理解代码就很容易了。教程中也有对baseline代码的解读，这里就不过多赘述了，理解不透彻的可以继续追问AI（毕竟AI是不会嫌你烦的哈哈）。
接下来的任务呢，就是生成我们的故事图片，还是借助AI（这样看上去AI是不是很万能哈哈），根据我们的需求来帮我们生成提示词，下面是根据教程的故事生成的图片：
在这里插入图片描述
有了AI，我们可以把我们各种天马行空的故事转变为适合模型的提示词，这不就大大提高了我们的创作能力嘛哈哈。