数据分析
各种装逼各种吹
成都的一名默默无名的go浪程序员
展开
-
python 获取较大.csv文件的行数
所谓较大.csv文件,就是直接用pd.read_csv读取,会出现MemoryError.这时需要把文件变成迭代器,分段读取.user_info = pd.read_csv("E:\data_analysis\Graduation design\data\weibo_users.csv", iterator=True)添加了iterator参数. 这样可以使用.get_chunk(10000)方法...原创 2018-05-11 14:14:26 · 17549 阅读 · 0 评论 -
pandas 中 dataframe 重复元素个数的获取
方法有二:1. 在调用duplicated方法后,非重复的元素会被标记为False,而重复的元素会被标记为Truecount = 0for i in users_info['user_id'].duplicated(): if i == True: count = count + 1count【注】users_info为一个dataframe框,user_id为其中一列...原创 2018-05-07 14:55:43 · 18113 阅读 · 0 评论