pandas.dataFrame按条件修改列的值(4种方式)

1.根据单一条件重新赋值

df.loc[df[column1]=='A',['column2']]='B'

2.多个条件,两种对应值

如果column1符合A或B条件,对应的’plus’列删除的前7个字段

//方法一  'and = &' , 'or = |' , ' not = ~'
df[new_column]= df['plus'].map(lambda x: str(x)[7:])
df[column]=np.where((df[column1] == 'A')|(df1[column2] == 'B'),df[new_column], df[old_column])
//方法二  
df[column]=df.apply (lambda x: x.plus[7:] if (df[column1] == 'A')|(df1[column2] == 'B')  else x.column, axis=1)

方法二也可以可以应用于01编码

//01验证  
df['01验证'] = df.apply(lambda x:1 if x == A  else 0)

3.两种以上对应值

这个时候就运用if elif

def label(df):
    if df[column] == A:
        return df['A']
    elif df[column] == B:
        return df['B']
    elif df[column] == C: 
        return df['C']
    elif df[column] == D: 
        return df['D']
    else:
        return 0
df['column']=df.apply(label,axis=1)

4.更多的对应值(直接使用表联接 类似于EXCEL的VLOOKUP功能)

直接使用表联接 类似于EXCEL的VLOOKUP功能
df1:

辅助列对应值
中芯国际¥56
兆易创新¥300
北方华创¥370
五粮液¥200
宁德时代¥500

df0:

行业辅助列
芯片中芯国际
芯片兆易创新
芯片北方华创
饮料五粮液
电池宁德时代
#读取辅助表
df1 = pd.read_excel('辅助.xlsx',header=0)
df = pd.merge(df0,df1[:,['辅助列','对应值']],how='left',on = '辅助列')

df:

行业辅助列对应值
芯片中芯国际¥56
芯片兆易创新¥300
芯片北方华创¥370
饮料五粮液¥200
电池宁德时代¥500

以上是针对列值修改积累的一些方法,希望可以帮助到大家,有未涉及到的地方可以留言补充,谢谢!

<think>好的,用户想了解 pandasDataFrame.eval 方法。我得先回忆一下这个函数的作用和用法。记得 eval 是用来在 DataFrame 中执行表达式计算的,可以用字符串表达式来操作,可能比普通的操作更高效,特别是处理大数据时。 首先,应该介绍 eval 的基本功能,比如允许用户用字符串表达式进行间的运算,比如A加B。然后,可能需要提到它的参数,比如表达式字符串、inplace是否替换数据,以及是否使用引擎(numexpr或python)。 然后,用户可能需要例子来说明用法。比如创建一个DataFrame,然后演示如何用eval计算新或者过滤数据。例如,df.eval('C = A + B'),或者查询条件如df.eval('A > 5')。 还要注意一些细节,比如名中的空格需要用反引号包裹,或者局部变量和名的区分。比如在表达式中使用@符号引用外部变量,比如df.eval('C = A + @threshold')。 另外,对比eval和普通方法的性能优势,特别是处理大数据时,使用engine='numexpr'可能会更快,因为numexpr库优化了计算。 可能用户也需要知道适用的场景,比如复杂表达式或大量数据时用eval更高效,而简单操作可能用普通方法更直接。还要提醒inplace参数的使用要谨慎,因为它会修改原数据。 最后,总结eval的主要优点:代码简洁、执行效率高,以及支持复杂表达式。可能需要指出注意事项,比如可读性和维护性的平衡,以及处理名中的特殊字符的情况。`</think>pandas.DataFrame.eval` 是 Pandas 库中一个高效执行表达式计算的方法,允许通过字符串表达式对 DataFrame进行运算。其核心作用是简化复杂操作并提升性能,尤其适合处理大型数据集。 ### 基本语法 ```python DataFrame.eval(expr, inplace=False, **kwargs) ``` - **expr**: 字符串形式的表达式(例如 `"A + B"`)。 - **inplace**: 若为 `True`,直接修改DataFrame;否则返回新结果(默认 `False`)。 - **engine**: 计算引擎(`'numexpr'` 或 `'python'`),默认优先使用 `numexpr` 加速计算。 --- ### 核心功能 1. **间运算** 直接通过名进行数学运算,无需显式书写 DataFrame 变量名: ```python import pandas as pd df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}) # 计算新 C = A + B df.eval('C = A + B', inplace=True) ``` 输出: ``` A B C 0 1 3 4 1 2 4 6 ``` 2. **过滤数据** 结合布尔表达式筛选行: ```python # 筛选 A > 1 的行 mask = df.eval('A > 1') print(df[mask]) ``` 3. **引用外部变量** 用 `@` 符号引入外部变量: ```python threshold = 2 df.eval('D = A > @threshold', inplace=True) ``` 4. **处理名中的特殊字符** 用反引号包裹含空格或特殊字符的名: ```python df.eval('`column with space` = A * 2', inplace=True) ``` --- ### 性能优势 - **加速计算**:默认使用 `numexpr` 引擎,优化计算速度(尤其在大型数据集中显著)。 - **内存效率**:避免生成中间变量,减少内存占用。 --- ### 适用场景 - **复杂公式**:简化多组合运算(如 `(A + B) / (C - D)`)。 - **动态表达式**:通过字符串动态生成计算逻辑。 - **大数据处理**:利用 `numexpr` 提升计算效率。 --- ### 注意事项 - **可读性**:过度复杂的表达式可能降低代码可维护性。 - **名冲突**:确保名与表达式中的变量名不冲突,必要时用反引号包裹名。 - **复制与修改**:默认返回新对象,若需修改原数据需设置 `inplace=True`。 通过合理使用 `eval()`,可以编写更简洁、高效的 Pandas 代码。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值