2018年08月_数据科学家修炼之道

原创安装IJulia (jupyter notebook的julia kernel)

安装jupyter notebook的julia kernel时，报错：julia> using Pkgjulia> Pkg.add("IJulia")ERROR: The following package names could not be resolved: * IJulia (not found in project, ma...

2018-08-30 22:31:00 8570

原创 Spark DataFrame 添加ID列

import org.apache.spark.sql.functions._df.withColumn("id", monotonically_increasing_id)

2018-08-30 16:36:00 1398

原创 mac ssh localhost 失败

问题描述:在配置完ssh之后，ssh localhost依旧失败：ssh: connect to host localhost port 22: Connection refused解决方案:选择系统偏好设置->选择共享->点击远程登录 ...

2018-08-30 09:41:00 1171

原创如何用终端命令删除jar包中指定的文件或文件夹

如何用终端命令删除jar包中指定的文件或文件夹，但又不能破坏jar包的格式，本文介绍使用7z实现。说明系统中需要安装7z命令7z支持通配符删除文件夹7z d demo.jar WEB-INFO/lib删除文件7z d demo.jar WEB-INFO/config.properties批量删除文件7z d ./TalentDirec...

2018-08-30 09:03:00 7161

原创 Spark(Scala) 在 split时遇到的坑

import org.apache.spark.sql.functions._split(data(field), "|"))data是一个Spark DataFrame，其中的field字段是由竖杠|隔开的字符串（如："中国|美国|英国"）我写上述代码是为了将其切开得到每个国家（"中国","美国","英国"），然而结果却是("中"，&qu

2018-08-30 09:00:00 8137 2

原创三行搞定matplotlib中文乱码

from matplotlib.font_manager import FontPropertiesfont = FontProperties(fname=r'c:\windows\fonts\msyh.ttc', size=20) # 在你电脑里找到的一个支持中文的字体plt.title(u'三行搞定matplotlib中文乱码', fontpro...

2018-08-28 23:26:00 216

原创肘方法确定KMeans聚类的最佳K值

当Kmeans聚类的K没有指定时，可以通过肘部法来估计聚类数量K_means参数的最优解是以成本函数最小化为目标成本函数为各个类畸变程度之和每个类的畸变程度等于该类重心与其内部成员位置距离的平方和但是平均畸变程度会随着K的增大先减小后增大，所以可以求出最小的平均畸变程度import numpy as npimport matplotlib.pyplot as pltfr...

2018-08-28 23:20:00 36453

原创 ipynb利器--nteract

ipynb，ipython notebook，一种交互探索式编程体验，集成了MarkDown语法，在码代码的同时可以记笔记，很酸爽，谁用谁知道。最近发现一个可以直接打开本地ipynb文件的软件nteract。[官网]((https://nteract.io/)安装后，可以直接双击ipynb文件直接打开笔记进行编辑，再不需要像以前一样，要先运行jupyter...

2018-08-28 23:13:00 4057 3

原创 Mac默认Java目录

打开终端，执行/usr/libexec/java_home -VMatching Java Virtual Machines (4): 1.8.0_101, x86_64: "Java SE 8" /Library/Java/JavaVirtualMachines/jdk1.8.0_101.jdk/Contents/Home 1...

2018-08-28 11:28:00 2262

原创 MySQL too many connections（1040）

其实MySQL默认的最大连接数为100，可能在大访问量的时候造成了连接不上数据库。解决的办法：1、如果你的MySQL数据库使用my.cnf文件配置找到文件 /etc/my.cnf编辑器打开，修改max_connections的值为10000。实际MySQL服务器允许的最大连接数16384。set-variable = max_connections...

2018-08-28 08:18:00 118

原创 Spark DataFrame一行分割为多行

2018-08-25 19:22:00 8782 3

原创证件照底色更换

快速选择工具选中背景设置前景色为自己想要的颜色选择油漆桶工具（在渐变工具里），点击背景区域

2018-08-24 12:44:00 2150

原创 Spark优化之Kyro序列化

Spark 2.0.2, double[], 使用Kyro序列化加速，和手动注册类名Kyro通常比原生的Java默认实现快10倍，所以建议使用Kyro来加速。如何开启Kyro开启的方法很简单，就是设参数spark.serializer。有三种方式：程序内：val conf = new SparkConf()conf.set("spark.s...

2018-08-24 12:43:00 1169

原创 Spark配置

配置说明默认值SPARK_WORKER_CORES作业可用的CPU内核数量所有可用的CPU内核数SPARK_WORKER_INSTANCES每台机器上运行的worker数量1SPARK_WORKER_CORES × SPARK_WORKER_INSTANCES每台机器总coresSPARK_WORKER_IN...

2018-08-24 12:43:00 2987

原创 spark性能优化指南

[TOC]前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的...

2018-08-24 12:43:00 132

原创 Spark History Server配置及使用

为什么要配置history server在Spark安装成功后，无论是通过spark-submit工具还是通过Intellij IDEA提交任务，只要在Spark应用程序运行期间，都可以通过WebUI控制台页面来查看具体的运行细节，在浏览器中通过地址：http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运...

2018-08-24 12:43:00 9872

原创大规模计算的策略

大数据处理策略有时候数据不能一次性加载到内存中(因为内存不足), 一般的方法就不能用了.这个时候的策略可以是增量学习(在线学习):小批量的数据逐渐学习, 每次只有一小部分数据是在内存中的scikit-learn中不同任务的增量估计器列表:分类:sklearn.naive_bayes.MultinomialNBsklearn.naive_baye...

2018-08-24 12:42:00 1165

原创等式回归

IsotonicRegression 类对数据进行非降函数拟合. 它解决了如下的问题:最小化 \sum_i w_i (y_i - \hat{y}_i)^2服从于 \hat{y}_{min} = \hat{y}_1 \le \hat{y}_2 ... \le \hat{y}n = \hat{y}{max}其中每一个 w_i 是 strictly 正...

2018-08-23 08:38:00 110

原创概率校准

执行分类时, 您经常希望不仅可以预测类标签, 还要获得相应标签的概率. 这个概率给你一些预测的信心. 一些模型可以给你贫乏的概率估计, 有些甚至不支持概率预测. 校准模块可以让您更好地校准给定模型的概率, 或添加对概率预测的支持.精确校准的分类器是概率分类器, 其可以将 predict_proba 方法的输出直接解释为 confidence leve...

2018-08-23 08:38:00 149

原创多类和多标签算法

sklearn.multiclass 模块采用了元评估器，通过把多类和多标签分类问题分解为二元分类问题去解决。这同样适用于多目标回归问题。Multiclass classification 多类分类意味着一个分类任务需要对多于两个类的数据进行分类。比如，对一系列的橘子，苹果或者梨的图片进行分类。多类分类假设每一个样本有且仅有一个标签：...

2018-08-22 21:58:00 319

原创特征选择

移除低方差特征单变量特征选择递归式特征消除使用 SelectFromModel 选取特征特征选取作为 pipeline（管道）的一部分在 sklearn.feature_selection 模块中的类可以用来对样本集进行 feature selection（特征选择）和 dimensionality reduction（降维），这将会提高...

2018-08-22 21:58:00 250

原创半监督学习

半监督学习适用于在训练数据上的一些样本数据没有贴上标签的情况。 sklearn.semi_supervised 中的半监督估计, 能够利用这些附加的未标记数据来更好地捕获底层数据分布的形状，并将其更好地类推到新的样本。当我们有非常少量的已标签化的点和大量的未标签化的点时，这些算法表现均良好。http://sklearn.apachecn.org/...

2018-08-22 21:58:00 256

原创决策树

1. 决策树的超参数2. 设计决策树模型面临的问题3. 决策树的优缺点4. 决策树算法的核心问题5. 决策树的构造过程6. 决策树的各种算法ID3C4.5CARTID3C4.5CART算法剪枝处理连续值与缺失值多变量决策树增量学习 TODO1. 决策树的超参数建立决策树模型训练之前,须设定超参数:...

2018-08-22 21:57:00 1651

原创高斯过程

高斯过程 (GP) 是一种常用的监督学习方法，旨在解决回归问题和概率分类问题。高斯过程模型的优点如下：预测内插了观察结果（至少对于正则核）。预测结果是概率形式的（高斯形式的）。这样的话，人们可以计算得到经验置信区间并且据此来判断是否需要修改（在线拟合，自适应）在一些区域的预测值。通用性: 可以指定不同的:ref:内核(kernels)&lt...

2018-08-22 21:52:00 8653

原创支持向量机

支持向量机 (SVMs) 可用于以下监督学习算法分类, 回归和异常检测.支持向量机的优势在于:在高维空间中非常高效, 即使在数据维度比样本数量大的情况下仍然有效.在决策函数（称为支持向量）中使用训练集的子集,因此它也是高效利用内存的.通用性: 不同的核函数核函数与特定的决策函数一一对应.常见的 kernel 已经提供,也可以指定定制...

2018-08-22 21:51:00 136

原创多项式回归

机器学习中一种常见的模式，是使用线性模型训练数据的非线性函数。这种方法保持了一般快速的线性方法的性能，同时允许它们适应更广泛的数据范围。例如，可以通过构造系数的 polynomial features 来扩展一个简单的线性回归。在标准线性回归的情况下，你可能有一个类似于二维数据的模型:如果我们想把抛物面拟合成数据而不是平面，我们可以结合二阶多项式...

2018-08-22 21:50:00 259

原创压缩感知算法

被动攻击算法是大规模学习的一类算法。和感知机类似，它也不需要设置学习率，不过比感知机多出一个正则化参数 C 。对于分类问题， PassiveAggressiveClassifier 可设定 loss='hinge' （PA-I）或 loss='squared_hinge' （PA-II）。对于回归问题， PassiveAggressiveRegres...

2018-08-22 21:49:00 1122

原创鲁棒回归

稳健回归（robust regression）特别适用于回归模型包含损坏数据（corrupt data）的情况，如离群点或模型中的错误。http://sklearn.apachecn.org/cn/0.19.0/modules/linear_model.html#robustness-regression-outliers ...

2018-08-22 21:49:00 1132

原创感知器

单层感知器单层感知器的算法单层感知器QQ截图20180315094410单层感知器进行模式识别的超平面为：单层感知器的算法假定第n次迭代中的：输入向量权值向量QQ截图20180315095818因此，第n次迭代时的线性组合器的输出为令上式等于0，即为二分类问题的决策面学习算法步骤如下...

2018-08-22 21:49:00 180

原创贝叶斯回归

贝叶斯岭回归主动相关决策理论 - ARD贝叶斯回归可以用于在预估阶段的参数正则化: 正则化参数的选择不是通过人为的选择，而是通过手动调节数据值来实现。上述过程可以通过引入无信息先验于模型中的超参数来完成。在岭回归中使用的正则项相当于在 w 为高斯先验条件下，且此先验的精确度为求最大后验估计。在这里，我们没有手工调参数 lam...

2018-08-22 21:47:00 3152

原创正交匹配追踪

OrthogonalMatchingPursuit (正交匹配追踪法)和 orthogonal_mp使用了 OMP 算法近似拟合了一个带限制的线性模型，该限制影响于模型的非 0 系数(例：L0 范数)。就像最小角回归一样，作为一个前向特征选择方法，正交匹配追踪法可以近似一个固定非 0 元素的最优向量解:\text{arg,min,} ||y - ...

2018-08-22 21:46:00 1720

原创最小角回归

最小角回归（LARS）是对高维数据的回归算法，由 Bradley Efron, Trevor Hastie, Iain Johnstone 和 Robert Tibshirani 开发完成。 LARS 和逐步回归很像。在每一步，它寻找与响应最有关联的预测。当有很多预测有相同的关联时，它没有继续利用相同的预测，而是在这些预测中找出应该等角的方向。...

2018-08-22 21:45:00 520

原创多任务弹性网络

MultiTaskElasticNet 是一个对多回归问题估算稀疏参数的弹性网络: 是一个二维数组，形状是。其限制条件是和其他回归问题一样，是选择的特征，也称为 tasks 。从数学上来说，它包含一个混合的先验和先验为正则项训练的线性模型目标函数就是最小化:在 MultiTaskElasticNet类中的实现采用了坐标下降法求解参数。...

2018-08-22 21:45:00 434

原创弹性网络

ElasticNet 是一种使用L1和L2先验作为正则化矩阵的线性回归模型.这种组合用于只有很少的权重非零的稀疏模型，比如Lasso, 但是又能保持Ridge 的正则化属性.我们可以使用 l1_ratio 参数来调节L1和L2的凸组合(一类特殊的线性组合)。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个，而弹性网...

2018-08-22 21:44:00 2499

注意，在本文中 bagging 和 boosting 为了更好的保留原文意图，不进行翻译 estimator-&amp;amp;amp;gt;估计器 base estimator-&amp;amp;amp;gt;基估计器集成方法的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来，从而获得比单个估计器更好的泛化能力/鲁棒性。集成方法通常分为两种:平均方法，该方法的原理是构建多个独立的估计器，然后取它们的预测结果的平均。...

2018-08-06 06:56:19 735

原创多类和多标签算法

sklearn.multiclass 模块采用了元评估器，通过把多类和多标签分类问题分解为二元分类问题去解决。这同样适用于多目标回归问题。Multiclass classification 多类分类意味着一个分类任务需要对多于两个类的数据进行分类。比如，对一系列的橘子，苹果或者梨的图片进行分类。多类分类假设每一个样本有且仅有一个标签：一个水果可以被归类为苹果，也可以是梨，但...

2018-08-06 06:56:12 968

原创特征选择

在 sklearn.feature_selection 模块中的类可以用来对样本集进行 feature selection（特征选择）和 dimensionality reduction（降维），这将会提高估计器的准确度或者增强它们在高维数据集上的性能。移除低方差特征单变量特征选择递归式特征消除使用 SelectFromModel 选取特征特征选取作为 pipeline...

2018-08-06 06:56:05 256

空空如也

空空如也