Sklearn
文章平均质量分 90
Sklearn
あずにゃん
日萌社
展开
-
AttributeError: DataFrame object has no attribute dtype
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)报错:AttributeError: 'DataFrame' object has no attribute 'dtype'解决:pairwise_distances(df, metric="jaccard") 修改为 pairwise_distances(df.values, metric="jaccard")...原创 2021-07-13 09:50:01 · 1820 阅读 · 0 评论 -
DataConversionWarning: Data was converted to boolean for metric jaccard。warnings.warn(msg, DataConve
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)警告:DataConversionWarning: Data was converted to boolean for metric jaccard。warnings.warn(msg, DataConversionWarning)解释:DataConversionWarning:数据已转换为度量jaccard的布尔值警告.warn(消息,数据转换警告)解.原创 2021-07-13 09:49:58 · 1063 阅读 · 0 评论 -
Sklearn:房租租⾦模型预测 版本二
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)库安装:pip install xgboost数据初步分析In[1]:import matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsimport warningswarnings.filterwarnings('ign..原创 2021-07-16 10:08:48 · 867 阅读 · 0 评论 -
Sklearn:房租租⾦模型预测 版本一
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)数据集下载链接:https://pan.baidu.com/s/13OtaUv6j4x8dD7cgD4sL5g提取码:7tze5.10 房租租⾦模型预测 1 项⽬背景 当今社会,房屋租⾦由装修情况、位置地段、户型格局、交通便利程度、市场供需量...原创 2021-07-17 09:09:13 · 1691 阅读 · 3 评论 -
Sklearn:天池新人实战赛o2o优惠券使用预测 part3
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)新特征工程XGboost_cv调优In[1]:import pandas as pdimport numpy as npfrom xgboost.sklearn import XGBClassifierimport xgboos...原创 2021-07-23 15:52:25 · 2185 阅读 · 0 评论 -
Sklearn:天池新人实战赛o2o优惠券使用预测 part2
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)特征处理In[1]:import pandas as pdimport numpy as npfrom datetime import dateimport datetime as dt获取数据In[2]:...原创 2021-07-23 15:52:41 · 932 阅读 · 0 评论 -
Sklearn:天池新人实战赛o2o优惠券使用预测 part1
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)阿里云官网:天池新人实战赛o2o优惠券使用预测数据集下载链接:https://pan.baidu.com/s/13OtaUv6j4x8dD7cgD4sL5g提取码:7tze数据本赛题提供用户在2016年1月1日至2016年6月30日之...原创 2021-07-23 15:53:15 · 1335 阅读 · 2 评论 -
模型融合stacking
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)In[1]:from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lassofrom sklearn.svm import LinearSVR, ...原创 2021-08-06 14:08:22 · 504 阅读 · 0 评论 -
集成学习:lightGBM(二)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.8 《绝地求生》玩家排名预测1 项目背景绝地求生(Player unknown's Battlegrounds),俗称吃鸡,是一款战术竞技型射击类沙盒游戏。这款游戏是一款大逃杀类型的游戏,每一局游戏将有最多100名玩家参与,他们将被...原创 2021-08-08 10:42:45 · 1778 阅读 · 0 评论 -
集成学习:lightGBM(一)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.5 lightGBM1 写在介绍lightGBM之前1.1 lightGBM演进过程1.2 AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。AdaBoost两个问题:(1) 如何改变...原创 2021-08-08 10:42:38 · 1515 阅读 · 1 评论 -
集成学习:XGBoost
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.1 xgboost算法原理XGBoost(Extreme Gradient Boosting)全名叫极端梯度提升树,XGBoost是集成学习方法的王牌,在Kaggle数据挖掘比赛中,大部分获胜者用了XGBoost。XGBoost在绝大多数的...原创 2021-08-08 10:42:41 · 720 阅读 · 0 评论 -
HMM模型:马尔可夫链、隐马尔可夫模型
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.1 马尔科夫链在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概念。马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈·马尔可夫(俄语:...原创 2021-08-09 11:12:38 · 1936 阅读 · 0 评论 -
SVM支持向量机
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.1 SVM算法简介1 SVM算法导入在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”SVM就是试图把棍放...原创 2021-08-09 11:13:24 · 1147 阅读 · 0 评论 -
朴素贝叶斯
In[1]:import pandas as pdimport numpy as npimport jiebaimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.naive_bayes import MultinomialNB...原创 2021-08-09 11:13:18 · 583 阅读 · 0 评论 -
聚类算法、分类算法
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)6.1 聚类算法简介1 认识聚类算法使用不同的聚类准则,产生的聚类结果不同。1.1 聚类算法在现实中的应用 用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别 基于位置信息的商业推送...原创 2021-08-09 11:13:38 · 7717 阅读 · 1 评论 -
集成学习:Bagging、随机森林、Boosting、GBDT
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.1 集成学习算法简介1 什么是集成学习集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。2复习:机器学习的两个核...原创 2021-08-10 09:49:04 · 2661 阅读 · 1 评论 -
决策树算法(四)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)In[1]:# 1.获取数据# 2.数据基本处理# 2.1 确定特征值,目标值# 2.2 缺失值处理# 2.3 数据集划分# 3.特征工程(字典特征抽取)# 4.机器学习(随机森林)# 5.模型评估I...原创 2021-08-10 09:49:07 · 469 阅读 · 0 评论 -
决策树算法(三)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.6 案例:泰坦尼克号乘客生存预测1 案例背景泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶...原创 2021-08-10 09:49:11 · 1032 阅读 · 0 评论 -
决策树算法(二)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.5 决策树算法apiclass sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)criterion 特征选择标准 ...原创 2021-08-10 09:49:27 · 361 阅读 · 0 评论 -
决策树算法(一)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.1 决策树算法简介决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树:是一种树形结构,本质是一颗由多个判断节点组成的树 其中每个内部节点表示一个属性上...原创 2021-08-10 09:49:20 · 2753 阅读 · 4 评论 -
数据分割:留出法train_test_split、留一法LeaveOneOut、GridSearchCV(交叉验证法+网格搜索)、自助法
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.10 交叉验证,网格搜索学习目标目标 知道交叉验证、网格搜索的概念 会使用交叉验证、网格搜索优化训练模型 1 什么是交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份...原创 2021-08-12 12:23:55 · 4298 阅读 · 1 评论 -
正则化线性模型:岭回归Ridge Regression(即线性回归的改进)、lasso回归(Lasso Regression)、弹性网络(Elastic Net)、Early Stopping
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.9 正则化线性模型学习目标知道正则化中岭回归的线性模型 知道正则化中lasso回归的线性模型 知道正则化中弹性网络的线性模型 了解正则化中early stopping的线性模型Ridge Regression 岭回归 Lasso ...原创 2021-08-11 09:34:22 · 1459 阅读 · 0 评论 -
多项式回归
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)第二章知识补充: 多项式回归我们在前面讲的都是一般线性回归,即使用的假设函数是一元一次方程,也就是二维平面上的一条直线。但是很多时候可能会遇到直线方程无法很好的拟合数据的情况,这个时候可以尝试使用多项式回归。多项式回归中,加入了特征的更高次方(例...原创 2021-08-11 09:34:16 · 2974 阅读 · 0 评论 -
分类中解决类别不平衡问题:imbalanced-learn、过采样、欠采样
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)分类中解决类别不平衡问题前面我们已经初步认识了,什么是类别不平衡问题。其实,在现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例);奢侈品消费人群鉴定等。1 类别不平衡数据集基本介绍在这...原创 2021-08-11 09:34:06 · 2597 阅读 · 0 评论 -
线性回归、线性回归的损失和优化
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.1 线性回归简介1 线性回归应用场景 房价预测 销售额度预测 贷款额度预测 举例:2 什么是线性回归2.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个...原创 2021-08-10 11:25:38 · 5589 阅读 · 0 评论 -
分类评估方法:精确率与召回率。ROC曲线与AUC指标、ROC曲线图绘制。
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.4 分类评估方法1.分类评估方法1.1 精确率与召回率1.1.1 混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)...原创 2021-08-10 09:49:33 · 2055 阅读 · 0 评论 -
逻辑回归、逻辑回归的损失和优化
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.1 逻辑回归介绍逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。1 逻辑回归的应用场景广告点击率 是否为垃圾邮件 ...原创 2021-08-10 11:25:21 · 3148 阅读 · 0 评论 -
特征工程-特征提取:字典特征提取、文本特征提取、jieba分词处理、Tf-idf文本特征提取
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)什么是特征提取呢?1 特征提取1.1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值化是为了计算机更好的去理解数据特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深...原创 2021-08-10 09:49:24 · 1747 阅读 · 0 评论 -
特征工程-特征预处理:归一化、标准化
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.7 特征工程-特征预处理1 什么是特征预处理1.1 特征预处理定义scikit-learn的解释provides several common utility functions and transformer classes t...原创 2021-08-13 09:42:55 · 387 阅读 · 0 评论 -
KNN:K-近邻算法
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1 什么是K-近邻算法根据你的“邻居”来推断出你的类别1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如...原创 2021-08-13 09:42:58 · 1391 阅读 · 0 评论