
Datawhale学习笔记
文章平均质量分 85
Datawhale学习笔记
JeffDingAI
OpenI首批资深体验官,MindSpore资深开发者,Ascend优秀开发者,主要探索学习国产算力、Mindspore、Ascend、AI For Science、LLM
展开
-
【DataWhale学习笔记-蝴蝶书共读】文本生成
文本摘要任务指的是用精炼的文本来概括整篇文章的大意,使得用户能够通过阅读摘要来大致了解文章的主要内容。抽取式摘要:从原文档中提取现成的句子作为摘要句。压缩式摘要:对原文档的冗余信息进行过滤,压缩文本作为摘要。生成式摘要:基于NLG技术,根据源文档内容,由算法模型自己生成自然语言描述。以下是一个基于mT5模型(T5模型的多语言版)的文本摘要样例。import re# 载入模型。原创 2024-03-21 19:06:34 · 1045 阅读 · 0 评论 -
【DataWhale学习笔记-蝴蝶书共读】大语言模型背后
从图灵测试到ChatGPT1950年,艾伦•图灵(Alan Turing)发表论文《计算机器与智能》( Computing Machinery and Intelligence),提出并尝试回答“机器能否思考”这一关键问题。在论文中,图灵提出了“模仿游戏”(即图灵测试)的概念,用来检测机器智能水平。图灵测试的核心思想是,如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题,其中一个是正常思维的人(代号B),另一个是机器(代号A)。如果经过若干询问以后,C不能得出实质的区别来原创 2024-03-18 11:51:19 · 1182 阅读 · 0 评论 -
【DataWhale学习笔记】使用AgentScope调用qwen大模型
AgentScope是一款全新的Multi-Agent框架,专为应用开发者打造,旨在提供高易用、高可靠的编程体验!高易用:AgentScope支持纯Python编程,提供多种语法工具实现灵活的应用流程编排,内置丰富的API服务(Service)以及应用样例,供开发者直接使用。同时,AgentScope提供了详尽的教程API文档和应用样例。高鲁棒。原创 2024-03-15 13:18:06 · 2112 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】训练一个 sora 模型的准备工作,video caption 和算力评估
从模型参数量来看,零一万物,CogVLM 的模型是百亿参数,但是仅支持英文,通义,灵笔等模型可以较好的支持中文,Video-LLaVA 可以支持直接对视频的理解,可以根据需求来选择具体的多模态大语言模型。原创 2024-03-14 11:44:52 · 888 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】语音AI
拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。参数TTS系统可分为两大模块:前端和后端。前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块,它的功能是把输入文本进行解析,获得音素、音调、停顿和位置等语言学特征。后端包含时长模型、声学模型和声码器,它的功能是将语言学特征转换为语音。其中,时长模型的功能是给定语言学特征,获得每一个建模单元(例如:音素)的时长信息;声学模型则基于语言学特征和时长信息预测声学特征;原创 2024-03-14 09:34:50 · 940 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】使用LaVie创建一段小视频
安装依赖下载代码仓设置hf-mirror下载模型到代码仓models目录下编辑ckpt_path: "../pretrained_models/lavie_base.pt" #模型地址output_folder: "../res/base/" #输出目录pretrained_path: "../pretrained_models" #训练模型目录prompt相关运行Video Interpolation运行Video Super-Resolution运行cd .. /vsr。原创 2024-03-12 12:23:43 · 586 阅读 · 0 评论 -
【Datawhale学习笔记】从大模型到AgentScope
进一步借助多个Agent之间的协作,完成复杂任务Single-agent开发 -> Multi-agent如何完成更复杂任务 -> 根据任务,让多个agent根据SOP或自定义流程配合如何针对大模型幻觉容错 -> 多个agent讨论、复盘逻辑如何拓展能处理的任务范围?-> 自由组合有不同擅长领域的agents如何提高解决问题的效率?-> 优化、并行多个子任务agent执行。原创 2024-03-11 10:34:54 · 1014 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】Transformers+diffusion
近期大火的OpenAI推出的Sora模型,其核心技术点之一,是将视觉数据转化为Patch的统一表示形式,并通过Transformers技术和扩散模型结合,展现了卓越的scale特性。被Twitter上广泛传播的论文《Scalable diffusion models with transformers》也被认为是Sora技术背后的重要基础。而这项研究的发布遇到了一些坎坷,曾经被CVPR2023拒稿过。原创 2024-03-06 10:11:33 · 1630 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】Attention和LLM
Attention = 注意力,从两个不同的主体开始。计算方法:va⊤tanhW1htW2hsscorehths⎩⎨⎧ht⊤hsht⊤Wahsva⊤tanhWaht;原创 2024-03-03 13:44:18 · 1233 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】AIGC技术基础知识
AIGC全称叫做AI generated content,AlGC (Al-Generated Content,人工智能生产内容),是利用AlI自动生产内容的生产方式。在传统的内容创作领域中,PGC(Professionally-generated Content,专业生成内容)和UGC(User-generated Content,用户内容生产)作为两大主流模式,共同构成了内容生产的核心来源。原创 2024-03-03 08:27:29 · 1198 阅读 · 0 评论 -
【Datawhale组队学习:Sora原理与技术实战】Sora技术原理
Text-to-video: 文生视频Image-to-video: 图生视频Video-to-video: 改变源视频风格or场景Extending video in time: 视频拓展(前后双向)Image generation: 图片生成 (size最高达到 2048 x 2048)Generate video in any format: From 1920 x 1080 to 1080 x 1920 视频输出比例自定义。原创 2024-02-27 10:21:28 · 1107 阅读 · 0 评论 -
【Datawhale课程笔记-简单学点大模型】模型架构
与仅仅根据频率进行拆分不同,一个更“有原则”的方法是定义一个目标函数来捕捉一个好的分词的特征,这种基于目标函数的分词模型可以适应更好分词场景,Unigram model就是基于这种动机提出的。您可能已经注意到,根据定义,标记的嵌入不依赖于其在序列中的位置,因此两个句子中的𝗆𝗈𝗎𝗌𝖾将具有相同的嵌入,从而在句子位置的角度忽略了上下文的信息,这是不合理的。然而,自然语言并不是以标记序列的形式出现,而是以字符串的形式存在(具体来说,是Unicode字符的序列),比如上面的序列的自然语言为“原创 2023-09-16 15:41:44 · 419 阅读 · 0 评论 -
【Datawhale课程笔记-简单学点大模型】大模型的有害性
内容审查:与有害内容的问题在现实世界中的对应(独立于语言模型)。毒性是依赖于上下文的,需要考虑的是人而不仅仅是文本。语言模型即使在非有毒提示的情况下也容易生成有毒内容。减轻毒性只能部分有效,并且可能有其他负面影响(对边缘化群体产生负面偏见)。原创 2023-09-13 13:46:48 · 609 阅读 · 0 评论 -
【Datawhale课程笔记-简单学点大模型】大模型的能力
GPT-3在广泛的标准NLP基准测试和一次性任务上进行了评估。GPT-3可以表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。有一些启发式的方法可以将语言模型适应到感兴趣的任务。但是为什么会有这样表现,没有人知道。原创 2023-09-12 15:03:58 · 281 阅读 · 0 评论 -
【Datawhale课程笔记-简单学点大模型】引言
语言模型(LM)的经典定义是一种对令牌序列(token)的概率分布。假设我们有一个令牌集的词汇表VVV。语言模型p为每个令牌序列x1xLx1...xL∈VVVpx1xLpx1xL概率直观地告诉我们一个标记序列有多“好(good)”。p0.02p0.02p0.02p0.02p0.02p0.02从数学上讲,语言模型是一个非常简单而又美妙的对象。原创 2023-09-11 14:42:44 · 244 阅读 · 0 评论 -
2021 “AI Earth”人工智能创新挑战赛-AI助力精准气象和海洋预测BaseLine学习笔记
一、比赛主页链接:https://tianchi.aliyun.com/competition/entrance/531871/introduction二、比赛介绍本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的Nino3.4指数,如下图所示:三、背景数据描述1. 数据简介本次比赛使用的数据包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近原创 2021-02-25 18:54:18 · 1826 阅读 · 1 评论 -
Datawhale集成学习笔记:熟悉机器学习的三大主要任务
1.什么是机器学习什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)xi=(xi1,xi2,...,xip,yi)共p+1个维度,前p个维度的每个维度我们称为一个特征,最后一个维度yiyi我们称为因变量(响应变量)。特征用来描述影响因变量转载 2021-03-15 18:39:01 · 176 阅读 · 0 评论 -
Datawhale集成学习笔记:基本的回归模型
1.收集数据集并选择合适的特征:在数据集上我们使用我们比较熟悉的Boston房价数据集,原因是:第一个,我们通过这些简单的数据集快速让我们上手sklearn,以及掌握sklearn的相关操作。第二个,我们用简单的数据集能更加清晰地介绍机器学习的相关模型,避免在处理数据上花费较大的精力。如果您对具体的项目感兴趣,我们会在第六章给出三个大型的案例让大家体验。import pandas as pdfrom sklearn import datasetsboston = datasets.load转载 2021-03-17 15:28:50 · 256 阅读 · 0 评论 -
Datawhale学习笔记-吃瓜笔记:线性模型
线性模型基本形式给定由d个属性描述的示例 x1;x2.....xdx_{1} ;x_{2}.....x_{d}x1;x2.....xd ,其中 xix_{i}xi 是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:f(x)=w1x1+w2x2+…+wdxd+bf(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+bf(x)=w1x1+w2x2+…+wdxd+b一般用向量形式写成原创 2022-01-13 15:23:51 · 684 阅读 · 0 评论 -
天池“AI Earth”人工智能创新挑战赛Docker提交笔记
一、Docker基本操作Docker基本操作可以参考这篇文章:https://tianchi.aliyun.com/forum/postDetail\?spm=5176.12586969.1002.9.51df4127FoZKeL\&postId=165595二、文件准备1.requirement文件内容numpytensorflow==2.2.02.code.py 代码文件import tensorflow as tfimport tensorflow.ke.原创 2021-02-19 18:00:48 · 671 阅读 · 1 评论 -
Datawhale集成学习笔记:基本的分类模型
使用sklearn构建完整的分类项目1 . 收集数据集并选择合适的特征:在数据集上我们使用我们比较熟悉的IRIS鸢尾花数据集。import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] =转载 2021-03-26 17:28:03 · 228 阅读 · 0 评论 -
Datawhale学习笔记-吃瓜笔记:绪论与模型评估与选择
绪论什么是机器学习简单的说:人工智能:让机器变得像人一样拥有智能的学科机器学习:让计算机像人一样能从数据中学习出规律的一类算法深度学习:神经网络类的机器学习算法人工智能 > 机器学习 > 深度学习人工智能具体应用领域:计算机视觉(Computer Vision, CV):让计算机拥有视觉能力自然语言处理(Natural Language Processing, NLP):让计算机拥有语言能力推荐系统(Recommender System, RS):让计算机精确分析出人的喜好原创 2022-01-10 19:11:16 · 509 阅读 · 0 评论 -
机器学习算法:K近邻(k-nearest neighbors)初探
1 KNN的介绍和应用1.1 KNN的介绍kNN(k-nearest neighbors),中文翻译K近邻。我们常常听到一个故事:如果要了解一个人的经济水平,只需要知道他最好的5个朋友的经济能力, 对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。示例 :如上图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方原创 2020-12-21 20:11:13 · 181 阅读 · 0 评论 -
Datawhale集成学习笔记:前向分步算法与梯度提升决策树
引用:Datawhale前向分步算法回看Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的整体框架逻辑,构建集成学习的一个非常重要的框架----前向分步算法,有了这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即转载 2021-04-22 19:31:48 · 123 阅读 · 0 评论 -
【Datawhale跨模态实践学习笔记】准备VCDE运行环境
VCDE运行环境原创 2022-11-14 19:57:04 · 443 阅读 · 0 评论 -
Datawhale学习笔记-吃瓜笔记:决策树
决策树基本流程决策树是一类常见的机器学习方法,以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看作对“当前样本属于正类吗?”这个问题的“决策”或“判定”过程,顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时的一种很自然的处理机制。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种原创 2022-01-19 19:36:36 · 668 阅读 · 0 评论 -
Datawhale水很深的机器学习笔记:CNN卷积神经网络
全连接神经网络全连接神经网络,它的权重矩阵的参数非常多,而且往往自然图像中的物体都具有局部不变性特征,即尺度缩放、平移、旋转等操作不影响其语义信息,但是全连接前馈网络很难提取这些局部不变特征,这就引出了我们将要介绍的卷积神经网络(Convolutional Neural Networks,CNN)。卷积神经网络也是一种前馈神经网络,是受到生物学上感受野(感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质)的机制而提出的(在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个转载 2021-11-26 14:40:03 · 229 阅读 · 0 评论 -
Datawhale集成学习笔记:XGBOOST算法
引用:DatawhaleXGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted,包括前面说过,两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gradient Boosting框架下实现机转载 2021-04-25 17:35:10 · 509 阅读 · 0 评论 -
Datawhale集成学习:bagging
引用自:Datawhalebagging的思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。bagging的原理分析Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希转载 2021-04-16 20:30:45 · 128 阅读 · 0 评论 -
Datawhale学习笔记-吃瓜笔记:支持向量
支持向量与间隔支持向量机(Support Vector Machine),这一名称是令人疑惑的,在这一章节里我们会解释这一名称与支持向量机的最基本模型。让我们先从线性二分类支持向量机开始对于一个给定的训练样本集 D={(x1,y1),(x2,y2),…,(xm,ym)},yiϵ{−1,+1}D=\left\{\left(\mathbf{x}_{1}, y_{1}\right),\left(\mathbf{x}_{2}, y_{2}\right), \ldots,\left(\mathbf{x}_{\ma原创 2022-01-26 18:25:56 · 903 阅读 · 0 评论 -
【Datawhale跨模态实践学习笔记】跨模态模型学习
跨模态模型学习原创 2022-11-18 08:31:24 · 1169 阅读 · 0 评论 -
【Datawhale IntelVINO学习笔记】OpenVINO核心组件资源和开发流程
OpenVINO学习笔记原创 2022-08-16 09:32:35 · 609 阅读 · 0 评论 -
Datawhale集成学习笔记:投票法的原理和案例分析
学习内容来源自:Datawhale投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据,并以少数服从多数的方法确定正确的传输数据。一般情况下,转载 2021-04-12 20:40:46 · 566 阅读 · 0 评论 -
【Datawhale跨模态实践学习笔记】项目后端学习
默认视频每秒传输帧数(此处视频截取精度为1s):默认音频比特率(码率):默认音频通道数:默认音频采样率:默认第一路字幕文件输出流,详情参见FFmpeg使用基础。原创 2022-11-22 17:18:43 · 655 阅读 · 0 评论 -
Datawhale水很深的机器学习笔记-RNN循环神经网络
计算图计算图的引入是为了后面更方便的表示网络,计算图是描述计算结构的一种图,它的元素包括节点(node)和边(edge),节点表示变量,可以是标量、矢量、张量等,而边表示的是某个操作,即函数。下面这个计算图表示复合函数关于计算图的求导,我们可以用链式法则表示,有下面两种情况。情况1情况2求导举例:例1a = 3, b = 1 可以得到 c = 3, d = 2, e = 6∂e∂a=∂e∂c∂c∂a=d=b+1=2\frac{\partial e}{\partial转载 2021-11-30 14:18:42 · 173 阅读 · 0 评论 -
Datawhale集成学习学习笔记:偏差与方差理论
优化基础模型在刚刚的回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。既然能做到这件事,是不是代表我们的建模完事大吉呢?换句话说我们的模型可以预测转载 2021-03-19 21:50:40 · 178 阅读 · 0 评论 -
【Datawhale可解释性机器学习笔记】预备知识学习
全局可解释性局部可解释性内置可解释性。原创 2022-12-12 17:43:40 · 358 阅读 · 0 评论 -
Datawhale-NLP课程笔记:Transformers在NLP中的兴起
自然语言处理(Natural Language Processing, NLP)自然语言处理(Natural Language Processing, NLP)是一种重要的人工智能(Artificial Intelligence, AI)技术。我们随处可以见到NLP技术的应用,比如网络搜索,广告,电子邮件,智能客服,机器翻译,智能新闻播报等等。最近几年,基于深度学习(Deep Learning, DL)的NLP技术在各项任务中取得了很好的效果,这些基于深度学习模型的NLP任务解决方案通常不使用传统的、特定转载 2021-08-15 21:15:59 · 231 阅读 · 0 评论 -
Datawhale集成学习笔记:Boosting的思路与Adaboost算法
引用:Datawhale1. 导论在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反转载 2021-04-19 17:31:10 · 166 阅读 · 0 评论 -
机器学习:Loss损失函数
Matching strategy (匹配策略):我们分配了许多prior bboxes,我们要想让其预测类别和目标框信息,我们先要知道每个prior bbox和哪个目标对应,从而才能判断预测的是否准确,从而将训练进行下去。不同方法 ground truth boxes 与 prior bboxes 的匹配策略大致都是类似的,但是细节会有所不同。这里我们采用SSD中的匹配策略,具体如下:第一个原则:从ground truth box出发,寻找与每一个ground truth box有最大的jac转载 2020-12-21 20:24:51 · 3998 阅读 · 0 评论