Causal Feature Selection for Algorithmic Fairness
在高风险的社会决策中使用机器学习(ML),鼓励在机器学习的整个生命周期中考虑公平性。尽管数据集成是生成高质量训练数据的主要步骤之一,但大多数公平性文献都忽略了这一阶段。本文考虑数据管理集成组件中的公平性,旨在识别在不给数据集增加任何偏差的情况下改善预测的特征。我们在因果公平范式[45]下工作。在不需要基础结构因果模型的情况下,本文提出一种方法来识别特征子集,通过在不同特征子集之间进行条件独立测试,确保数据集的公平性。我们使用分组测试来提高方法的复杂性。从理论上证明了所提算法的正确性,并表明亚线性条件独立性测试足以识别这些变量。在真实数据集上进行了详细的实证评估,以证明该技术的有效性和效率。
总结:这是一篇非常有趣的 数据特征选择问题