1.Kaggle 是一个流行的数据科学竞赛平台。
2.数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。
百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
3.CSV
,中文叫法是逗号分隔值,其文件以纯文本形式存储表格的数据。CSV
文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。
4.pandas
是基于 numpy
的一种工具,该工具是为了解决数据分析任务而创建的。pandas
纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas
提供了大量能使我们快速便捷地处理数据的函数和方法。
5.Pandas的DataFrame:DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由series组成的字典(共用同一个索引)
6.机器学习里的 kernel :内核
7.Normalize:规范化操作
8.在机器学习中,我们通常会把数据集分成训练集和测试集。
9.TensorFlow
提供了一种新的模型训练方法,即将数据预处理的过程嵌入到模型中,作为模型的输入层,即 Feature Layer
。
10.优化器即为在每一步训练之后更新模型中每个神经元所包含的权重值的工具,使下一次数据进来之后分类更加准确。通常我们并不需要自己选优化器,只需要直接使用找到模型或论文中标注的优化器即可,如果是自制模型,针对神经网络中可以采取最基本的梯度下降法。
11.均方误差即为真实值与预测值差平方的期望,即方差的平均值。
绝对误差即为每个值与平均值的差值的绝对值的和。平均绝对误差即为绝对误差的平均值,它其实是更一般形式的误差平均值。
mae
指的是平均绝对误差,在统计学中表示真实值和预测值离散的程度,mae
越小表示模型理论上越优秀.。
黑色星期五