
数据科学和人工智能技术笔记
数据科学和人工智能技术笔记
布客飞龙
所有电子书在 it-ebooks.flygon.net 有备份
-
翻译 数据科学和人工智能技术笔记 十九、数据整理(下)
十九、数据整理(下)作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0连接和合并数据帧# 导入模块import pandas as pdfrom IPython.display import displayfrom IPython.display import Imageraw_data = { 'subject_id': ['1',...2019-01-01 22:05:257208
0
-
翻译 数据科学和人工智能技术笔记 十九、数据整理(上)
十九、数据整理(上)作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0在 Pandas 中通过分组应用函数import pandas as pd# 创建示例数据帧data = {'Platoon': ['A','A','A','A','A','A','B','B','B','B','B','C','C','C','C','C'], 'Cas...2019-01-01 17:17:519334
0
-
翻译 数据科学和人工智能技术笔记 二十一、统计学
二十一、统计学作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0贝塞尔校正贝塞尔的校正是我们在样本方差和样本标准差的计算中使用 n−1n-1n−1 而不是 nnn 的原因。样本方差:$ s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2 $当我们计算样本方差时,我们试...2018-12-29 22:12:529166
0
-
翻译 数据科学和人工智能技术笔记 二十、数据可视化
二十、数据可视化作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0MatPlotLib 中的双向条形图%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# 创建数据帧raw_data = {'first_name': ['Jas...2018-12-29 22:09:4710000
0
-
翻译 数据科学和人工智能技术笔记 十八、Keras
十八、Keras作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0添加丢弃# 加载库import numpy as npfrom keras.datasets import imdbfrom keras.preprocessing.text import Tokenizerfrom keras import modelsfrom keras imp...2018-12-29 14:03:489283
0
-
翻译 数据科学和人工智能技术笔记 十七、聚类
十七、聚类作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0凝聚聚类# 加载库from sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import AgglomerativeClustering# 加载数据ir...2018-12-29 14:02:3910355
0
-
翻译 数据科学和人工智能技术笔记 十六、朴素贝叶斯
十六、朴素贝叶斯作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0伯努利朴素贝叶斯伯努利朴素贝叶斯分类器假设我们的所有特征都是二元的,它们仅有两个值(例如,已经是独热编码的标称分类特征)。# 加载库import numpy as npfrom sklearn.naive_bayes import BernoulliNB# 创建三个二元特征X = n...2018-12-29 14:01:329202
0
-
翻译 数据科学和人工智能技术笔记 十五、支持向量机
十五、支持向量机作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0校准 SVC 中的预测概率SVC 使用超平面来创建决策区域,不会自然输出观察是某一类成员的概率估计。 但是,我们实际上可以通过一些技巧输出校准的类概率。 在 SVC 中,可以使用 Platt 缩放,其中首先训练 SVC,然后训练单独的交叉验证逻辑回归来将 SVC 输出映射到概率:P(y=1∣x...2018-12-29 13:59:588846
1
-
翻译 数据科学和人工智能技术笔记 十四、K 最近邻
十四、K 最近邻作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0确定 K 的最佳值# 加载库from sklearn.neighbors import KNeighborsClassifierfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfro...2018-12-29 13:58:089280
1
-
翻译 数据科学和人工智能技术笔记 十一、线性回归
十一、线性回归作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0添加交互项# 加载库from sklearn.linear_model import LinearRegressionfrom sklearn.datasets import load_bostonfrom sklearn.preprocessing import PolynomialFe...2018-12-28 15:30:029372
0
-
翻译 数据科学和人工智能技术笔记 十、模型选择
十、模型选择作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0在模型选择期间寻找最佳预处理步骤在进行模型选择时,我们必须小心正确处理预处理。 首先,GridSearchCV使用交叉验证来确定哪个模型表现最好。 然而,在交叉验证中,我们假装作为测试集被留出的一折是不可见的,因此不适合一些预处理步骤(例如缩放或标准化)。 出于这个原因,我们无法预处理数据然后运行G...2018-12-28 15:29:119784
0
-
翻译 数据科学和人工智能技术笔记 十三、树和森林
十三、树和森林作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0Adaboost 分类器# 加载库from sklearn.ensemble import AdaBoostClassifierfrom sklearn import datasets# 加载数据iris = datasets.load_iris()X = iris.datay =...2018-12-28 15:28:238637
0
-
翻译 数据科学和人工智能技术笔记 十二、逻辑回归
十二、逻辑回归作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0C 超参数快速调优有时,学习算法的特征使我们能够比蛮力或随机模型搜索方法更快地搜索最佳超参数。scikit-learn 的LogisticRegressionCV方法包含一个参数C。 如果提供了一个列表,C是可供选择的候选超参数值。 如果提供了一个整数,C的这么多个候选值,将从 0.0001 和...2018-12-28 15:26:439285
0
-
翻译 数据科学和人工智能技术笔记 九、模型验证
九、模型验证作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0准确率# 加载库from sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionfrom sklearn.datasets import make_cl...2018-12-26 17:26:248889
0
-
翻译 数据科学和人工智能技术笔记 八、特征选择
八、特征选择作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0用于特征选取的 ANOVA F 值如果特征是类别的,计算每个特征与目标向量之间的卡方(χ2\chi^{2}χ2)统计量。 但是,如果特征是定量的,则计算每个特征与目标向量之间的 ANOVA F 值。F 值得分检查当我们按照目标向量对数字特征进行分组时,每个组的均值是否显着不同。# 加载库fro...2018-12-26 17:24:158826
0
-
翻译 数据科学和人工智能技术笔记 七、特征工程
七、特征工程作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0稀疏特征矩阵上的降维# 加载库from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import TruncatedSVDfrom scipy.sparse import csr_matrixfr...2018-12-26 17:20:318826
0
-
翻译 数据科学和人工智能技术笔记 六、日期时间预处理
六、日期时间预处理作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0把日期和时间拆成多个特征# 加载库import pandas as pd# 创建数据帧df = pd.DataFrame()# 创建五个日期df['date'] = pd.date_range('1/1/2001', periods=150, freq='W')# 为年月日,...2018-11-10 21:33:359256
0
-
翻译 数据科学和人工智能技术笔记 五、文本预处理
五、文本预处理作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0词袋# 加载库import numpy as npfrom sklearn.feature_extraction.text import CountVectorizerimport pandas as pd# 创建文本text_data = np.array(['I love Bra...2018-11-10 21:32:269378
0
-
翻译 数据科学和人工智能技术笔记 四、图像预处理
四、图像预处理作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0图像二值化# 加载库import cv2import numpy as npfrom matplotlib import pyplot as plt# 将图像加载为灰度image_grey = cv2.imread('images/plane_256x256.jpg', cv2.IMR...2018-11-10 21:31:059288
0
-
翻译 数据科学和人工智能技术笔记 三、数据预处理
三、数据预处理作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0为 Scikit-Learn 转换 Pandas 类别数据# 导入所需的库from sklearn import preprocessingimport pandas as pdraw_data = {'patient': [1, 1, 1, 2, 2], 'obs': [...2018-11-09 21:00:497975
0
-
翻译 数据科学和人工智能技术笔记 二、数据准备
二、数据准备作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0从字典加载特征from sklearn.feature_extraction import DictVectorizerstaff = [{'name': 'Steve Miller', 'age': 33.}, {'name': 'Lyndon Jones', 'age': ...2018-11-09 20:59:1510818
0
-
翻译 数据科学和人工智能技术笔记 一、向量、矩阵和数组
一、向量、矩阵和数组作者:Chris Albon译者:飞龙协议:CC BY-NC-SA 4.0转置矩阵或向量# 加载库import numpy as np# 创建向量vector = np.array([1, 2, 3, 4, 5, 6])# 创建矩阵matrix = np.array([[1, 2, 3], [4, 5, 6],...2018-11-09 20:58:0810358
0