特征工程：机器学习中的特征与标签nlp化

最新推荐文章于 2024-07-30 01:28:06 发布

Ying_zz

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量5.7k

点赞数 1

分类专栏：机器学习文章标签：自然语言神经网络数据仓库特征工程机器学习

本文链接：https://blog.csdn.net/yingzhenzhe/article/details/77923595

版权

本文探讨了在特征稀疏或数据异构场景下，如何利用自然语言处理技术改进特征工程和标签表示，以降低模型开发和数据仓库建设成本，提高模型精度。介绍了将特征和目标自然语言化的优势，包括更好地理解特征、解决稀疏性问题，以及简化数仓架构。同时，讨论了这种方法的挑战，如模型训练的复杂性和对业务理解的需求。

摘要由CSDN通过智能技术生成

机器学习中的特征与标签自然语言化

引子

这是一篇关于机器自然语言应用和特征工程结合的文章，目的在于探讨在企业或科研场景中，特征工程的另一种可能性——解决特征稀疏或数据和模型异构场景下一种通用的解决方案。一种大大降低模型开发及数仓建设人力成本，同时提高模型精度的解决方案。

在机器学习科研领域中，往往可以看到的是在规整及缺失率低特征的数据集下，固定的生产线解决一个特定的问题。

而工业和现实场景中，用户的信息往往是极度稀疏的：
1.企业的目标用户的静态特征可能是平均缺失率在90%以上,用户的行为也极度稀疏，行为日志（购买各种各样的商品、进行不同软件的安装卸载）的种类太多无法onehot导致维度爆炸；
2.预测目标复杂，无法用一个简单的loss function描述：推荐平台需要预测用户购买物品的可能性而广告平台需要预测用户B是否点击广告，用户画像团队需要刻画用户的各种画像属性。
企业的数据团队往往需要不断使用开发人力维护输入端不同的特征工程以及机器学习人力输出端不同的模型甚至不同的流水线训练。随着业务扩展，整个架构越来越臃肿，如人月神话中的场景一样，团队陷入焦油坑。