- 博客(13)
- 收藏
- 关注
原创 DataWhale暑期夏令营第一期——大模型技术方向task2笔记
可以先通过对标签中各个项进行数据分析(使用values_count方法),可以得到主要任务的各个指标的值分布情况。我认为这一步的作用:帮助理解数据。大模型的本质还是概率生成,通过prompt提示词去进行生成。
2024-07-04 00:17:10 350
原创 用于讲话者视听追踪,基于自监督学习的多模态感知注意力网络——论文阅读
端到端模型:输入和输出之间没有中间步骤或阶段。端到端模型直接从原始输入数据映射到最终输出结果,没有人为设计的特征提取,中间表示或者预处理步骤。异构信号:在某一信号环境中具有不同特性和属性的信号,这些信号可以是不同来源、不同类型,不同模态的信号,它们具有不同的物理特性,频谱特性,时域特性等。在图像处理或音频处理中,可能需要处理来自不同来源或不同类型的信号,例如同时处理彩色图像的RGB通道,或者处理来自不同麦克风的音频信号。多模态信息互补性:多模态研究是指研究不同类型的数据融合的问题。
2024-04-21 20:52:18 1135 3
原创 DataWhale动手学数据分析第5阶段笔记
经过前两天的学习,已经初步掌握数据预处理和清洗,现在到了使用数据的环节,搭建一个预测模型,并且完成评估工作。
2024-03-19 17:53:54 778
原创 DataWhale 数据可视化笔记
此部分内容是我结合该阶段课程视频和自己之前的笔记进行的总结,如果有不完善的地方,还请指正。from matplotlib import pyplot as plt # 导入pyplot。
2024-03-18 19:59:28 1479 1
原创 Datawhale动手学数据分析第三阶段笔记
不同年龄的存活人数Age0.42 10.67 10.75 20.83 20.92 1#找出最大值的年龄段Age24.0 15342#首先计算总人数print("最大存活率:"+str(precetn))最大存活率:0.043859649122807015。
2024-03-16 20:26:30 1686 1
原创 DataWhale动手学数据分析第二阶段笔记
宽格式是指数据在多个列中展开,而长格式是指数据被“熔化”成两列:一个标识变量(通常是原来的列名)和一个值变量(原来是那些列中的值)。数据清洗和特征工程都是机器学习前的重要步骤,通常情况下我们拿到的数据都是不干净,有噪声和干扰项存在的。我们首要的工作就是讲这些数据清洗干净,即对这些数据进行合理的预处理,是我们的数据更适用于分析和建模。1.删除含有缺失值的个案,直接删除含有缺失值的行或列。2.插补缺失值,对数据中的缺失项进行插补操作,有均值插补,中位数插补,众数插补,回归插补,多重插补等多种插补方法.
2024-03-14 19:33:26 386 1
原创 Data whale动手学数据分析一阶段笔记
loc:loc是基于标签进行索引的,它使用行和列的标签来访问数据。这个词在英文中的含义代表序列,它是一个一维的、大小可变的、可以存储同类型数据的数组。在数据中,我们非常讨厌缺失值(Null),这种缺失值在我们对数据进行处理以及通过数据观察规律的过程中会带来不小的麻烦,例如在机器学习中,数据中数值的缺失很容易带来梯度的问题。通过上面的步骤,我们已经初步的完成了对数据的处理,通常情况下在对数据进行处理之前,我们还需要先了解一下数据的基本构成,有了足够的了解我们才可以对数据进行预处理。
2024-03-12 21:17:31 1834 1
原创 DATA WHALE动手学数据分析一阶段笔记
教程中使用的数据集是机器学习中经典的泰坦尼克号数据集# 导入需要的库# 通常使用df来简要表示pandas的dataframe结构# 使用pandas自带的读入方法读取csv类型数据df</style></div># 可以使用head方法来指定查看数据的行数df.head(5)</style></div># 上面导入数据使用的是相对路径,相对路径相较于绝对路径使用简单,但是在一些情况下,绝对路径更不容易出错。
2024-03-12 21:12:42 792 1
原创 Numpy学习笔记
使用numpy生成数组,得到ndarray的数据类型c = np.arange(6) # 能够快速的从生成从0到某个数字的数组print(a)print(b)print(c)b.dtype # 获得数据的类型t4 = np.array(range(1,4), dtype="float32") # 指定创建的数组的数据类型print(t4)[1. 2. 3.]float32print(t5)bool# 调整数据类型。
2023-11-04 16:44:39 34 1
原创 数据分析笔记----Pandas
Pandas要先读取表格类型的数据,然后进行分析rating = pd.read_csv(fpath) # 读取指定路径下文件# 查看前几行数据# 查看数据的形状,返回(行数,列数)# 查看列名列表# 查看索引列# 查看每列的数据类型读取txt文件,自己指定分隔符、列名fpath,sep='\t',读取excel文件读取MySQL数据库。
2023-10-29 16:56:41 127 1
原创 Day01 笔记
问题理解,分析,规划。问题不同,解决方案不同 数据不同,模型不同。数据探索分析;样本筛选、样本组织;验证策略设计;模型理解和选择;特征工程;模型训练、验证、测试;模型预测结果分析;后处理;模型融合;复盘总结;注意:要结合问题看题目,深入理解题目的各个点。
2023-08-05 19:35:17 35 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人