python 获取较大.csv文件的行数

最新推荐文章于 2024-08-05 08:30:00 发布

各种装逼各种吹

最新推荐文章于 2024-08-05 08:30:00 发布

阅读量1.7w

点赞数 4

分类专栏：数据分析文章标签： python .csv 文件行数 pandas 数据分析

本文链接：https://blog.csdn.net/y7788c/article/details/80279967

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

所谓较大.csv文件，就是直接用pd.read_csv读取，会出现MemoryError.

这时需要把文件变成迭代器，分段读取.

user_info = pd.read_csv("E:\data_analysis\Graduation design\data\weibo_users.csv", iterator=True)

添加了iterator参数. 这样可以使用.get_chunk(10000)方法，每次读取一万行，同时用count累加.

当文件行数不够的时候，会报出StopIteration，这时跳出循环即可

count = 0
for i in range(300):
    try:
        user = user_info.get_chunk(10000)
        count += user.shape[0]
    except StopIteration:
        break
print(count)

【注】：对于get_chunk方法报错，存在一个技术细节，如果行数不够10000，它会读取对应的行数，然后下一次再调用时，才报错，而不是直接报错.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

各种装逼各种吹

关注关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python最大值行_Python csv：找出具有最大值的行

weixin_39902107的博客

01-13

1515

我一定错过了一些东西，但是我在找出最大的值并使用csv.DictReader()函数打印它们时遇到了问题。csv文件是类似的(我已经删除了字段以及行，因为这些格式的行太宽)：traverse;damage;hull_front;turret_back;penetration;full_name;tier;hull_back;turret_sides;type;hull_sides;turret_f...

pd.read_csv读取指定的行数或列数

qq_22592457的博客

08-04

2万+

import numpy as np import pandas as pd df = pd.read_csv('0728.csv',sep=',') df 如上图所示，有时候直接读取文件，会多出一些空白列。为了去掉这些空白列，我们可以用usecols参，确定好要读取的列数，直接加参即可。 list_a = np.arange(12) df = pd.read_csv('0728.csv',sep=',',usecols=list_a) df 有时我们只需要前几行的数据，可以用nrows参，脚本如下

参与评论您还未登录，请先登录后发表或查看评论

使用python读取较大.csv文件行数

Procrastination的博客

04-21

2050

pandas直接读取我只要读一个文件的行数，最开始没想到内存的问题，想着用pandas库做： df = pd.read_csv(directory) print('***************当前文件有' + str(len(df)) + '行数据***************') 文件大概10个G 内存爆掉，失败使用 with open（） as 读写文件参考： https://blog.csdn.net/xrinosvip/article/details/82019844 https://bl

【Python系列】Python获取 Excel 文件的行数

最新发布

檀越的博客

08-05

1万+

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨。

pandas用read_scv读取含英文双引号的文件，读取后出现行数减少的解决方法

longwei92的博客

11-21

4417

当文本文件中带有英文双引号时，直接用pd.read_csv进行读取会导致行数减少，此时应该对read_csv设置参数quoting=3或者quoting=csv.QUOTE_NONE #quoting=3 df = pd.read_csv(file, header=0, sep='\t', quoting=3) #quotint-csv.QUOTE_NONE import csv df = pd....

pandas读取excel,csv文件数据

Mylymi的博客

03-29

1947

读取csv文件类型的数据 import pandas as pd import numpy as np csv_data = pd.read_csv('./tmp/meal_order_info.csv',encoding='gbk') ##读取csv文件类型的数据 print(csv_data) ##输出结果文件目录路径如果需要展示出所有的数据，需要添加下面代码 pd.set_option('display.max_rows', None) ## 显示所有行...

python查看文件有多少行_计算CSV Python中有多少行？

weixin_39686192的博客

11-24

472

我测试了几种代码，以便在速度方面获得csv文件中的行。import timeimport csvimport pandas as pdfilename = './sample_submission.csv'print("# sum(1 for line in open(filename)) ")t0 = time.time()n = sum(1 for line in open(filename)...

Python拆分大型CSV文件代码实例

09-18

在处理大数据量的CSV文件时，通常需要将大文件拆分成较小的文件以便于处理，尤其是在内存资源有限的情况下。Python作为一门功能强大的编程语言，在文件处理方面提供了多种灵活的操作方法。本篇知识点将详细介绍使用...

机器学习 - 数据集（.csv文件或.excel文件）的基本处理

seek0226的博客

06-25

1万+

Python - 对数据集（csv文件）的基本处理操作载入数据集数据集抽样数据集统计修改数据集1修改数据集2持更操作载入数据集 import pandas as pd data = pd.read_csv('数据集的文件路径或者URL'，header) # header为表头，默认为第0行，header = None 默认没有表头，会自动添加数字作为列数数据集抽样显示数据集 data # 显示数据集 data.sample(int n) # 随机显示 n 条数据，默认n = 1 dat

CSV大文件分割工具.rar

12-16

该"CSV大文件分割工具.rar"是一个压缩包，包含了能够帮助用户高效处理大CSV文件的应用程序。这个工具的设计理念是简单易用，无需安装，用户只需要双击运行即可。它提供了一个直观的界面，让用户可以轻松选择要分割的...

笔记：python分割csv超大文件并提取随机数据

yanliar的博客

11-30

1920

拆分大文件，随机提取数据，时间戳转换

解决python执行较大excel文件openpyxl慢问题

09-16

`openpyxl`是一个强大的库，专为处理.xlsx格式的Excel文件设计，但它在读取大文件时效率较低。这个问题可以从代码示例中看出，通过比较`openpyxl`和`xlrd`两个库在读取数据上的时间差异，可以明显发现`openpyxl`在...

python统计文件行数

nebula1008的博客

03-29

873

python统计csv文件行数 import pandas as pd #导入pandas包 data = pd.read_csv("xxx.csv") #读取csv文件 #count = len(open('905909197体表温度.csv',"rU").readlines()) #print(data) print(len(data)) 我需要比对很多csv文件的行数，搜了一圈怎么计算这个行数，发现直接len（data）就是行数。

pandas读取2000w行csv文件

tyler的博客

08-04

694

import json import pandas as pd def print_csv(src_csv,tgt_csv): csv_file = open(src_csv,encoding='utf-8') g = open(tgt_csv, 'w', encoding='utf-8') reader = pd.read_csv(src_file, iterator=True) loop = True chunkSize = 500000 #文件的分割行数 num_line = 0 sum

python pandas读入千万行（10GB）csv文件

weixin_44587086的博客

04-04

3174

读取10gb的csv文件,用时20秒

python读取大数据csv文件—亿级数据量

rubyw的博客

04-29

7363

python读取亿级数据

python读取超大csv

雄关漫道真如铁而今迈步从头越

10-28

5833

《python读取超大csv》现在工作中遇到的数据动辄千万或上亿的数据，其中图像数据是以 oss 链接的形式放入到 csv 中，csv文件所占磁盘空间一般就会20G起，所以直接读入内存是不现实的，这里记录一种使用 pandas 读取超大 csv 文件的方法。 Key Words：pandas、迭代器、超大csv Beijing, 2021 作者：mxsurui Agile Pioneer import pandas as pd 预览 csv 内容 # 导入部分数据进行测试.

Python 计算csv文件中数据一共有多少行