AI学习记录_银行产品购买预测:采用item-based cf方法,对santandery银行的用户产品购买数据进-CSDN博客

本文链接：https://blog.csdn.net/yrnaaa/article/details/113200947

Traceback (most recent call last):
File "D:/comm_class_rnn.py", line 144, in <module>
pickle.dump(myRNN, open(save_path, 'wb'))
TypeError: cannot pickle '_thread.RLock' object

出错原因：

myRNN是keras类对象，用myRNN.save_weights('RNN.h5')即可

如果是sklearn对象，就可以用pickle.dump(myRNN, open(save_path, 'wb'))====》未验证

补充下：

保存方式	是否保存模型结构	是否保存模型权重	是否能继续训练网络	是否能进行模型预测
model.save()	是	是	是	是
model.save_weights()	否	是	否	是
model.to_json()	是	否	否	加载权重后能进行正常预测
model.to_yaml()	是	否	否	加载权重后能进行正常预测

参考：深度学习——keras模型的保存和加载 - 知乎

===========================================================

一、AI概述

1. 目前应用到的大致分四类：

1）. 类人行为：图灵测试方法

2）. 类人思考：认知模型方法

3）. 理性行为：理性智能体方法

4）. 理性思考：“思维法则”方法

2. 发展历程

自 1956年达特茅斯会议以来，关于人工智能(artificial intelligence, AI)的研究由于受到智能算法、计算速度、存储水平等多方面因素的影响，经历了两起两落的发展，近年来在语音识别、计算机视觉等领域终于取得了重大突破。究其原因，业界普遍认为有三大要素合力促成了这次突破：丰富的数据资源、深度学习算法和充足的计算力支持。丰富的数据资源取决于互联网的普及和随之产生的海量信息;以深度学习为代表的机器学习算法的精确性和鲁棒性越来越好，适用于不同场景的各类算法不断优化完善，具备了大规模商业化应用的潜力;而充足的算力则得益于摩尔定律的不断演进发展，高性能芯片大幅降低了深度学习算法所需的计算时间和成本。

发展制约因素： A、算法 B、算力（计算能力） C、数据量

我们将人工智能的发展历程划分为以下6个阶段：

一是起步发展期：1956年—20世纪60年代初。人工智能概念提出后，相继取得了一批令人瞩目的研究成果，如机器定理证明、跳棋程序等，掀起人工智能发展的第一个高潮。

二是反思发展期：20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望，人们开始尝试更具挑战性的任务，并提出了一些不切实际的研发目标。然而，接二连三的失败和预期目标的落空（例如，无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等），使人工智能的发展走入低谷。

三是应用发展期：20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题，实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功，推动人工智能走入应用发展的新高潮。

四是低迷发展期：20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大，专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

五是稳步发展期：20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展，加速了人工智能的创新研究，促使人工智能技术进一步走向实用化。1997年国际商业机器公司（简称IBM）深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫，2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。

六是蓬勃发展期：2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展，泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的“技术鸿沟”，诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破，迎来爆发式增长的新高潮。

另一种分类：

GitHub

3. 机器学习算法：

1). 线性回归：找到一条直线来预测目标值

2 ). 逻辑回归：找到一条直线来分类数据

3 ). K-近邻：用距离度量最相邻的分类标签

4 ). 朴素贝叶斯：选择后验概率最大的类为分类标签

5 ). 决策树：构造一棵熵值下降最快的分类树

6 ). 支持向量机（SVM）：构造超平面，分类非线性数据

7 ). K-means：计算质心，聚类无标签数据

8 ). 关联分析：挖掘啤酒与尿布（频繁项集）的关联规则

9 ). PCA降维：减少数据维度，降低数据复杂度

10 ). 人工神经网络：逐层抽象，逼近任意函数

11 ). 深度学习：赋予人工智能以璀璨的未来

4. 成长路径规划（from必知必会）——10大经典模型
• 分类算法：C4.5，朴素贝叶斯（Naive Bayes），SVM，KNN，Adaboost，CART
• 聚类算法：K-Means，EM
• 关联分析：Apriori
• 连接分析：PageRank

5. 有用的算法

• 分类算法：LR，Decision Tree，Naive Bayes，SVM，KNN
• 矩阵分解：ALS-WR，FunkSVD，BiasSVD，SVD++
• FM模型：FM，FFM，DeepFM，NFM，AFM，xDeepFM
• 树模型：GBDT，XGBoost，LightGBM，CatBoost，NGBoost
• Attention模型：DIN，DIEN，DSIN，Transformer，BERT
• Embedding：Word2vec，DeepWalk, Node2Vec，GCN
• 时间序列：AR, MA, ARMA ,ARIMA, LSTM
• 强化学习：Value-Based, Policy-Based, Actor-Critic
……

6. 主流AI模型

7. 一些例子

银行产品购买预测：采用Item-based CF方法，对Santandery银行的用户产品购买数据进行分析，并对未来可能购买的产品进行预测：https://github.com/xxx/Santandery
电影推荐算法：基于矩阵分解的协同过滤算法（ALS，SVD，SVD++，FunkSVD）给Netflix网站进行推荐算法，RMSE降低到0.9111：https://github.com/xxx/netflix
CTR广告点击率预测：采用基于神经网络的DeepFM算法，对DSP公司Avazu的网站的广告转化率进行预测，项目中使用了线性模型及非线性模型，并进行了对比分析：https://github.com/xxx/avazu-ctr-prediction
邮件数据分析：通过PageRank算法分析邮件中的人物关系图谱，并针对邮件数量较大的情况筛选出重要的人物，进行绘制：https://github.com/xxx/PageRank
电影数据集关联规则挖掘：采用Apriori算法，分析电影数据集中的导演和演员信息，从而发现导演和演员之间的频繁项集及关联规则：https://github.com/xxx/Apriori
信用卡违约率分析：针对台湾某银行信用卡的数据，构建一个分析信用卡违约率的分类器。采用Random Forest算法，信用卡违约率识别率在80%左右：https://github.com/xxx/credit_default
信用卡欺诈分析：针对欧洲某银行信用卡交易数据，构建一个信用卡交易欺诈识别器。采用逻辑回归算法，通过数据可视化方式对混淆矩阵进行展示，统计模型的精确率，召回率和F1值，F1值为0.712，并绘制了精确率和召回率的曲线关系：https://github.com/xxx/credit_fraud
比特币走势分析：分析2012年1月1日到2018年10月31日的比特币价格数据，并采用时间序列方法，构建自回归滑动平均模型（ARMA模型），预测未来8个月比特币的价格走势。预测结果表明比特币将在8个月内降低到4000美金左右，与实际比特币价格趋势吻合（实际最低降到4000美金以下）：https://github.com/xxx/bitcoin 屋价格走势预测引擎：通过时间序列算法，分析北京、上海、广州过去4年（2015.8-2019.12）的房屋历史价格，预测未来6个月（2020.1-2020.6）不同区的价格走势：https://github.com/xxx/house-price-prediction

8. 比赛链接

比赛名称	比赛网址	baseline
资金流入流出预测	https://tianchi.aliyun.com/competition/entrance/231573/introduction	135
贷款违约预测	https://tianchi.aliyun.com/competition/entrance/531830/introduction	0.7300
新闻文本分类	https://tianchi.aliyun.com/competition/entrance/531810/introduction	0.9323
街景字符编码识别	https://tianchi.aliyun.com/competition/entrance/531795/introduction	0.800
阿里云安全恶意程序检测	https://tianchi.aliyun.com/competition/entrance/231694/information	0.470000
新浪微博互动预测	https://tianchi.aliyun.com/competition/entrance/231574/information	31.00%
新闻推荐	https://tianchi.aliyun.com/competition/entrance/531842/introduction	0.1100
ImageNet图像分类对抗攻击	https://tianchi.aliyun.com/competition/entrance/231761/introduction	2.200
天猫复购预测	https://tianchi.aliyun.com/competition/entrance/231576/introduction	0.650000