1、神经网络:
1943年 第一个神经元模型M-P模型
1957年 感知器,首个可学习的神经网络
1969年 单层神经网络
1986年 反向传播算法,BP算法的实质:函数求导的链式法则
2006年 深度信念网络
神经网络是由具有适应性的简单单元组成的广泛并行互联网络,它的组织能够模拟生物神经系统对真实世界物体所作出的反应。
2、回归分析:确定两种或两种以上变量相互依赖的定量关系的一种统计分析方法。回归是连续的,分类是离散的。
3、线性回归:线性回归的损失函数通过梯度下降算法求解会得到全局收敛。
4、多项式回归:解决非线性数据拟合问题。
基本思路:升维,加新特征(新特征由原来特征多项式组合得到)。
5、逐步回归:解决多重共线性问题,逐步引入变量。
6、岭回归:是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法
7、LASSO:套索回归
8、最小二乘建模:最小二乘拟合的基本步骤 选择模型 求解法方程
9、CNN:训练过程中自己学习卷积核(卷积核数目越多,提取图像特征越多)
三要素:卷积核尺寸、深度、步幅
池化:降低每个特征映射的维度,保留重要信息。
CNN的代表:LeNet、AlexNet、VGGNet
10、AI=A+B+C(A:算法;B:弱监督大数据;C:算力)
11、模型集成:分为并行集成和串行集成,指将多个弱分类器合并为一个强分类器。常见算法有随机森林、AdaBoost等。
12、数据增强:在不实质性的增加数据的情况下,通过数字变换让有限的数据产生等价于更多数据的价值。
意义:增加训练数量,提高模型的泛化能力;增加噪声数据,提升模型的鲁棒性。
单样本增强:对单个图像进行几何变换或颜色变换(翻转、旋转、缩放、裁剪、移位、高斯噪声)。
多样本增强:利用多个样本生成新的样本。
13、提高模型性能方法:数据预处理、特征工程、机器学习算法、模型集成、数据增强。
14、数据矩阵 文档的维数=词典中所有词汇个数 维数=像素个数(分辨判)
行:样本、示例,测量
列:特征、变量、属性、维度
15、数据读写
①CSV文件的读写:CSV文件,以纯文本形式存储表格数据。
②文本数据的读写:文件分为 文本文件和二进制文件。
文件操作流程:打开文件,读写文件、关闭文件。
大型文件读取:按行读取,不用加载进内存
.readl()读取整个文件,存储在一个字符串变量中。
.realin()每次只读取一行。
.realines()读取整个文件,自动将文件内容分析成一个行的列表。
③图像数据的卖写
④视频数据的读写
16、可视化:利用计算机图形学和图像处理技术,将数据转换成图形或图形在屏幕上显示出来,并进行交互处理的理论方法和技术
图形化手段可清晰有效地传送与沟通信息,可更生动友好的即时呈现隐藏在庞大数据后的信息。
Matplotlib:python的2D绘图库(条形图,曲线图、统计图、注释图、矩阵图、子图)。
词云:由词汇组成类似云的图形(美西北大学新闻学教授RichGordon提出)。
地图可视化:利用pyecharts在地图上进行数据展示。
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个子类别集合的过程。要求:相同类簇中的样本点尽可能相似,不同类簇中的样本点尽可能不相似。度量样本点之间的相似性——距离。
17、数据集=训练集十测试集+验证集
学习曲线:预测模型在训练集和测试集上性能变化的可视曲线。随着样本数据增加,算法训练模型的表现能力的变化。
18、聚类评估指标:互信息、规范化的互信息、修正的互信息、兰德指数、修正兰德指数、杰卡德指数、CH指数。
19、分类评估指标:准确率、平衡化的准确率、混淆矩阵、PR曲线、ROC曲线、Kappa系数。
20、回归评估指标:MAE(平均绝对误差)、MSE(平均平方误差)、R-square(拟合优度 判定系数)、可解释方差、偏方差分解。