数据获取与处理
文章平均质量分 64
一起躺躺躺
小白一个,从头学起,这里更多是用作学习记录,如有错误,请指出,谢谢!
展开
-
python中读取文件夹中文件名的方法,及os.listdir结果顺序错乱的问题
这样读出来的文件名是没有任何问题的,但是有一个问题就是这个文件名的顺序有问题,看下图,本应该40+的在前,但是由于os.listdir本身的算法设计,导致了这种顺序错乱的问题。比如我本身的顺序是{1,2,3,...,100,101},那他读出来后的顺序会变成{1,100,101...,2,3}如果文件名的排列顺序是按照文件名中的某一个数字排列的,那可以用sort函数来解决顺序错乱的问题,我这个文件来举例,我的文件名是‘171018-1247_#145.DTA ’、‘171018-1247_#41.DTA’这原创 2022-06-27 15:26:05 · 3289 阅读 · 1 评论 -
UnicodeDecodeError: ‘‘ codec can‘t decode byte 0xb0 in position : invalid start byte,批量读取不同编码文件的解决方法
参考博客:(45条消息) Python读取各种格式的txt文档(ANSI、Unicode、Unicode big endian、UTF-8等)_Ltinginger的博客-CSDN博客_python读取ansi编码文件问题想用python打开一个.dat的文件,代码及报错如下:以下是踩过的坑:默认编码格式是utf-8,这个格式读取错误,就看看文件是什么格式,把编码格式换一换呗最简单的方法,用记事本打开,另存为 这个时候可以看到编码格式为ANSI,ok,那就把解码格式改为这个...原创 2022-05-31 10:57:19 · 3063 阅读 · 2 评论 -
python读取.txt、.dat等文件,将其中特定内容存到其他文件
我想要用的数据存在一个.dat文件中,但是这个文件中除了我想要的数据还有很多其他杂乱的内容,所以需要有一个寻找我想要内容的过程,见下图,我想要的是图中标亮部分及以后的数据;我需要将这些数据按顺序读出,并将其转换成数值类型,然后再按顺序写入csv文件。首先分析一下思路,这个.dat文件可以直接用python打开读取内容,如下图所示,所以不用另外进行格式转换;可以通过关键字来查找到我需要的数据的位置,比如我这个文件中有一行表示单位的字符(红框),并且在该文件中独一无二,就可以作为关键字;找到我需要的数据原创 2022-05-25 11:37:56 · 11548 阅读 · 0 评论 -
怎么寻找数据集
1、paperswithcodes datasets:一个网站,论文的代码实现以及在各个数据集上面的表现,也有一些论文常见的数据集2、Kaggle datasets:一个竞赛的网站,有常见数据集,也有用户上穿的数据集,用户上传的数据集质量参差不齐,需要自己判断3、Google dataset search:一个数据集的搜索引擎,可以在上面搜索需要的数据集,返回结果是各种网站相应的数据集4、也有各种各样集成的工具数据集,比如tensorflow、huggingface5、从各种竞赛或者公司中发原创 2022-04-06 15:09:26 · 9804 阅读 · 1 评论 -
机器学习常用数据集介绍
1.2 数据获取【斯坦福21秋季:实用机器学习中文版】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Lf4y1n7LN/?spm_id_from=333.788 MNIST:手写数字数据集,学习常用Imagenet:图片的数据集,从搜索引擎的图片AudioSet:youtube上面的声音切片的数据集,可以分类Kinetics:youtube上面的视频的切片,每个切片都有一些人的行为KITTI:无人驾驶的数据集,摄像头、激光雷达各种传感器得到的原创 2022-04-05 16:55:49 · 1442 阅读 · 0 评论