数据分析
文章平均质量分 91
一些分享
浩波的笔记
微信公众号:浩波的笔记
展开
-
[数据分析实践]-Image Matching-2DTo3D-1
让机器学习使用互联网上免费提供的大量非结构化图像集合,来帮助更好地捕捉世界的丰富性,这个想法怎么样?从图像重建 3D 对象和建筑物的过程称为运动结构 (SfM)。转载 2022-05-17 20:40:03 · 740 阅读 · 0 评论 -
[数据分析实践]-音频分析-BirdCLE-3
数据背景作为“世界灭绝之都”,夏威夷已经失去了68%的鸟类物种,其后果可能会损害整个食物链。研究人员利用种群监测来了解本地鸟类对环境变化和保护措施的反应。但岛上的许多鸟类都被隔离在难以接近的高海拔栖息地。由于身体监测困难,科学家们转向了声音记录。这种被称为生物声学监测的方法可以为研究濒危鸟类种群提供一种被动的、低成本的、经济的策略。目前处理大型生物声学数据集的方法涉及对每个记录的手工注释。这需要专门的训练和大量的时间。因此使用机器学习技能,通过声音来识别鸟类的种类,可以节约大量成本。具体来说,开发一个模转载 2022-05-15 15:38:55 · 484 阅读 · 0 评论 -
[数据分析实践]-音频分析-BirdCLE-2
音频数据分析讲解翻译 2022-05-14 17:00:00 · 784 阅读 · 0 评论 -
[数据分析]-音频分析-BirdCLE-1
wechat号:浩波的笔记数据背景作为“世界灭绝之都”,夏威夷已经失去了68%的鸟类物种,其后果可能会损害整个食物链。研究人员利用种群监测来了解本地鸟类对环境变化和保护措施的反应。但岛上的许多鸟类都被隔离在难以接近的高海拔栖息地。由于身体监测困难,科学家们转向了声音记录。这种被称为生物声学监测的方法可以为研究濒危鸟类种群提供一种被动的、低成本的、经济的策略。目前处理大型生物声学数据集的方法涉及对每个记录的手工注释。这需要专门的训练和大量的时间。因此使用机器学习技能,通过声音来识别鸟类的种类,可以节约大转载 2022-05-12 20:35:54 · 247 阅读 · 0 评论 -
天池-新闻推荐-数据分析
前言读取数据此次比赛是新闻推荐场景下的用户行为预测挑战赛, 是Datawhale与天池联合举办,该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题!赛题链接: 零基础入门推荐系统 - 新闻推荐对于刚接触推荐系统同学推荐先浏览以下基础知识:推荐系统摘要推荐系统知识梳理——协同过滤推荐系统知识梳理——矩阵分解推荐系统原创 2020-11-27 22:54:54 · 1829 阅读 · 0 评论 -
kaggle实战—泰坦尼克(五、模型搭建-模型评估)
kaggle实战—泰坦尼克(一、数据分析)kaggle实战—泰坦尼克(二、数据清洗及特征处理)kaggle实战—泰坦尼克(三、数据重构)kaggle实战—泰坦尼克(四、数据可视化)kaggle实战—泰坦尼克(五、模型搭建-模型评估)前言相信大家都有队pandas,numpy等数据科学库有一定了解,其中不乏有很多人有专门刷过相关课程或者看多相关书籍,例如《python for data analysis》。但是在实操过程中有很多函数还是得看着官方文档来进行敲写,既费时又费力 。最近刚好data.原创 2020-08-28 23:42:30 · 1768 阅读 · 0 评论 -
kaggle实战—泰坦尼克(四、数据可视化)
kaggle实战—泰坦尼克(一、数据分析)kaggle实战—泰坦尼克(二、数据清洗及特征处理)前言相信大家都有队pandas,numpy等数据科学库有一定了解,其中不乏有很多人有专门刷过相关课程或者看多相关书籍,例如《python for data analysis》。但是在实操过程中有很多函数还是得看着官方文档来进行敲写,既费时又费力 。最近刚好datawhale发起一个相关打卡活动——实战,我就报名参加了。(ps:极力推荐这本书,大家可以去网上搜索电子版,或者也可以关注微信公众【浩波的笔记】回.原创 2020-08-24 15:42:34 · 2875 阅读 · 0 评论 -
kaggle实战—泰坦尼克(三、数据重构)
kaggle实战—泰坦尼克(一、数据分析)kaggle实战—泰坦尼克(二、数据清洗及特征处理)前言相信大家都有队pandas,numpy等数据科学库有一定了解,其中不乏有很多人有专门刷过相关课程或者看多相关书籍,例如《python for data analysis》。但是在实操过程中有很多函数还是得看着官方文档来进行敲写,既费时又费力 。最近刚好datawhale发起一个相关打卡活动——实战,我就报名参加了。(ps:极力推荐这本书,大家可以去网上搜索电子版,或者也可以关注微信公众【浩波的笔记】回.原创 2020-08-23 11:04:04 · 744 阅读 · 0 评论 -
kaggle实战—泰坦尼克(二、数据清洗及特征处理)
前言相信大家都有队pandas,numpy等数据科学库有一定了解,其中不乏有很多人有专门刷过相关课程或者看多相关书籍,例如《python for data analysis》。但是在实操过程中有很多函数还是得看着官方文档来进行敲写,既费时又费力 。最近刚好datawhale发起一个相关打卡活动——实战,我就报名参加了。(ps:极力推荐这本书,大家可以去网上搜索电子版,或者也可以关注微信公众【浩波的笔记】回复data analysis来获取。)这次实践又比较偏模型和实战(完成kaggle上泰坦尼克的任务)原创 2020-08-22 10:40:18 · 1978 阅读 · 0 评论 -
kaggle实战—泰坦尼克(一、数据分析)
数据加载载入数据数据集下载 https://www.kaggle.com/c/titanic/overview任务一:导入numpy和pandas原创 2020-08-19 22:45:59 · 3800 阅读 · 0 评论 -
数据挖掘之数理统计与描述性统计
一、数理统计概念1.基本概念释义定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。例如,为了研究某厂生产的一批元件质量的好坏,规定使用寿命低于1千小时的为次品,则该批元件的全体就为总体,每个元原创 2020-06-24 22:16:49 · 372 阅读 · 0 评论 -
主成分分析(PCA)方法
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。在理解特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。主成分分析也称原创 2020-06-01 17:19:14 · 2036 阅读 · 0 评论 -
如何将不规整的dataframe中特定的值去掉
原本样例train_list = train_test.values.tolist()#去除0元素for i in range(len(train_list)): length = len(train_list[i]) x = 0 while x < length: if train_list[i][x] == 0: t...原创 2020-03-25 18:55:21 · 1473 阅读 · 0 评论 -
将一个列表的奇数列赋值到另外一个列表
原始数据def trn(value): return value for i in range(len(train_list)): for j in range(len(train_list[i])): if j % 2 == 0: weight.append(is_in(train_list[i][j])) e...原创 2020-03-25 18:48:03 · 859 阅读 · 0 评论