目录
前言
本文对python中常用的list,array和DataFrame,这三种数据类型的排序方法进行了总结。
本文需要导入以下包:
import numpy as np
import pandas as pd
import heapq
一、list排序
首先,我们定义初始列表:
list_0 = [1, 4, 5, 7, 2]
1.sort()
sort()方法,是在原始列表上进行排序,默认是从小到大。该方法含有一个参数:reverse,表示是否反向,若reverse=True 则将其按照从大到小的顺序排序。
list_1 = list_0.copy()#副本,保证 list_0 不变
print(list_1)
list_1.sort()
print(list_1)
list_2.sort(reverse=True)
print(list_2)
#结果如下:
#[1,4,5,7,2]
#[1,2,4,5,7]
#[7,5,4,2,1]
2.sorted()
sorted()函数,对原始列表不作修改,返回一个新的已排序列表。
list_3 = sorted(list_0)
print(list_0)
print(list_3)
#结果如下:
#[1,4,5,7,2]
#[1,2,4,5,7]
#[7,5,4,2,1]
sorted()函数有两个参数,其中 reverse 参数用法同上,而 key 参数可以指定一些排序规则。例如:
1.对3取余后的数字排序
list_4 = sorted(list_0, key=lambda x: x%3)
print(list_0)
print(list_4)
#结果如下:
#[1,4,5,7,2]
#[1,2,4,5,7]
2.排序后序列的索引
list_5 = sorted(range(len(list_0)), key=lambda i: list_0[i])
print(list_0) #原始序列
print(list_1) #排序后序列
print(list_5) #排序后序列索引
#结果如下:
#[1,4,5,7,2]
#[1,2,4,5,7]
#[0,4,1,2,3]
3.返回最大/小值
heapq库内的heapq.nlargest() 和 heapq.nsmallest()函数,都可以用于查找列表中的最大和最小元素。这两个函数都接受两个参数,即要返回的元素数量和要搜索的列表,均返回一个新的列表,其中包含最大或最小的元素。以下举例返回前三大/小的数:
largest_3 = heapq.nlargest(3, list_0)
smallest_3 = heapq.nsmallest(3, list_0)
print(list_0)
print(largest_3)
print(smallest_3)
#结果如下:
#[1,4,5,7,2]
#[7,5,4]
#[1,2,4]
二、numpy排序
1.np.sort()
np.sort()函数和前面所提到的sorted()函数很类似,对原始列表不作修改,但返回的是一个新的已排序Array;同时若想要从大到小排序,则需要在后面加上[::-1]。
arr_1 = np.sort(list_0)
arr_2 = np.sort(list_0)[::-1]
print(list_0)
print(arr_1)
print(arr_2)
另外,np.sort()有一个很常用的参数为axis,默认值为-1,表示沿最后的轴排序。对于一个二维向量,最后的轴为1:
- axis = 0,表示按列排序
- axis = 1,表示按行排序
以下举例说明:
arr_0 = np.array([[1,5,9],
[2,8,4],
[7,6,3]])
print(arr_0,'\n','-'*10)
print(np.sort(arr_0),‘\n','-'*10)
print(np.sort(arr_0, axis=0),'\n','-'*10)#按行排序
print(np.sort(arr_0, axis=1))#按列排序
2.np.argsort()
np.argsort() 函数的功能是——返回排序后序列索引。该函数的参数使用同np.sort()函数的参数一样。
print(arr_0,'\n','-'*10)
print(np.sort(arr_0))
三、DataFrame排序
DataFrame排序,主要涉及到方法是sort_values,它有两个参数:
- by 表示通过哪一列进行排序,
- ascending控制升序还是降序,默认 ascending = True 为升序。
以下举例说明:
首先,定义以下初始表格:
df_0 = pd.DataFrame({
'A': [1, 6, 3],
'B': [2, 2, 4],
'C': [7, 6, 3]
})
若按照 'A' 列进行升序排序:
df_0.sort_values(by = 'A')
若按照 'C' 列进行降序排序:
df_0.sort_values('C', ascending = False)
此外,还可以同时根据多列进行排序,例如:先按B列降序排序,当B列中的一些元素相等时,对于这些列再按A列升序排列。
df_0.sort_values(by=['B','A'],ascending = [False,True])