机器学习
三印
专注于大数据、BI、数据挖掘、数据库架构方向,欢迎交流,共同进步~
展开
-
基于bertService的二次精排
一、bertService安装可以自行百度,网络安装方案很多二、bertService启动# -*- coding: utf-8 -*-from bert_serving.server import BertServerfrom bert_serving.server.helper import get_args_parserdef main(): args = get_args_parser().parse_args(['-model_dir', '/Users/alibaba原创 2021-12-20 15:47:25 · 387 阅读 · 0 评论 -
C++解析决策树PMML文档
PMML三问PMML是什么?预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言。PMML价值是什么实现模型的跨语言部署。举个例子,模型是用python训练但是希望部署到JAVA或者C++环境中,解决方案是将模型以PMML格式文件导出,然后利用其他语言进行解析、部署PMML如何解析JAVA语言...原创 2020-04-01 09:58:33 · 1613 阅读 · 2 评论 -
Java解析pmml格式机器学习模型
背景 在实际工程项目中,我们训练和迭代模型一般使用Python,因此它提供了强大的算法包和非常方便的数据处理工具,所以能够快速试验。但是,算法模型部署成服务,Java语言和其相应的框架就显得优势明显了。为了更好地结合Python 与 Java各自的优势,PMML能够作为中间媒介,将模型以.pmml格式导出,然后利用java语言进行解析和部署PMML是什么? ...原创 2020-03-24 16:18:30 · 4539 阅读 · 0 评论 -
文本分类心得(Bert模型使用)
正式入职了一段时间,接手了NLP相关任务,作为一个初学者,分享一点最近的所学心得和体会。稍后有时间更新,现在项目催的很紧,能力比较强的可以找我内推阿里秋招。可以私信我联系方法,个人会进行第一遍简历筛选。1.冷启动问题: 当文本数据量很少时(可称为冷启动阶段),一般采用概率统计方法,抽取文本的大体规则,实现需求,因为在少量的样本数据情况下,很难实现算法的较高精度。...原创 2019-08-02 10:25:03 · 2729 阅读 · 7 评论 -
机器学习查准率和查全率理解
半年之后突然需要算这个东西,概念忘的差不多了。今天google搜索一查,发现搜索排名前几的讲解,都是在将概念,贴公式(没什么不好,但没有短时间解决我的问题) 今天我们就从语文的角度来理解这两个东西。 举例:在标签过程中,我原始数据中标记19个正例(关注在正例)。然后用模型跑,结果发现了29个正例标签,并且,29个正例标签中,19个是对...原创 2019-07-04 19:09:37 · 1625 阅读 · 1 评论 -
机器学习要点总结
对机器学习初学者的12条宝贵建议,转自:https://blog.csdn.net/Mbx8X9u/article/details/808514151. “表征+评估+优化”构成机器的主要内容!构成机器学习算法的 3 部分:表征(Representation):分类器必须用计算机可以处理的形式化语言来表示。相反地,为训练模型选择一个表征就等同于选择可训练分类器的集合。这个集合称为训练模型的「假设空...转载 2018-07-04 09:44:26 · 925 阅读 · 0 评论 -
机器学习训练集/开发集/测试集挑选
在实际应用领域,一般将数据集分成三块,训练集:用来训练算法;开发集:用来进行特征选择或者调参;测试集:用来检测算法的表现,因此测试集应该能够反映和包含现实的真正数据分布,而不是假设分布。在实际算法迭代过程中,我们最后希望得到的结果是算法在测试集上表现的非常优秀;但是,最近读吴恩达老师的笔记:有时可能我们需要决定投资多少去获取好的开发集和测试集。切记不要假定你的训练集分布和测试集分布必须是一样的。尝...原创 2018-06-11 09:54:12 · 996 阅读 · 0 评论 -
Hyperopt调参神器学习
现在又出了一个调参神器了:Hyperopt,还有Sklearn-Hyperoprt,现在做了一个Demo,仅供大家参考,但是有两点需要注意,我看网上没人说明,个人测试下来说明一下:请大家小心:1、以下测试代码,需要Python2.7跑,Python3.5会报错,已经找到报错的原因了:TypeError: 'generator' object is not subscriptable;报这个错之...原创 2018-05-22 11:33:10 · 5431 阅读 · 2 评论 -
机器学习特征工程
2018/3/15更新结合KAGGLE竞赛经验、算法面试情况和jasonfreak的总结,个人总结出以下机器学习特征处理的方法;分享给大家,希望对大家有帮助特征使用方案:1、要实现我们目标,需要什么数据----结合特定业务,具体情况具体分析 2、数据可用性评估:1、获取难度 2、覆盖率 3、准确率特征获取方案:1、如何获取特征(接口调用or自己清洗or/...原创 2018-03-03 10:37:20 · 985 阅读 · 0 评论 -
机器学习正则化、偏差和误差理解总结
2018-08-21更新:考虑用ensemble方法降低模型bias 和 variance偏差:即模型在训练时候,衡量模型拟合程度的变量,训练期间拟合的越好,偏差越小,通常也会使得模型变得越复杂。但是,并不是偏差越小越好,因为过小的偏差往往就是过拟合情况;过拟合会造成什么影响,为什么大家都担心自己的模型会陷入过拟合情况?解释如下:模型发生过拟合之后,将会失去泛化能力,又有小伙伴会好奇,什...原创 2018-04-04 17:44:57 · 2390 阅读 · 0 评论 -
随机森林算法OOB_SCORE最佳特征选择
2018-04-02更新:补充OOB特征选择另一个原理Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征,减少特征冗余;同理,可以通过特征的排列组合,选择最优的组合特征,优化下游算法性能原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本。通过袋外样本,...原创 2018-03-20 15:01:34 · 28749 阅读 · 95 评论 -
机器学习参数模型与非参数模型/生成模型与判别模型
2018-03-31更新:生成模型与判别模型参数模型:根据预先设计的规则,例如方差损失最小,进行学习,参数模型例子:回归(线性回归、逻辑回归)模型;最好可以看一下或者直接进行一下相关的推导;根据规则,拥有少部分数据就可以;非参数模型:不需要事先假设规则,直接挖掘潜在数据中的规则;非参数模型例子:KNN,决策树,挖掘数据潜在的特征,所以比较灵活;参数模型缺点:受限制性高非参数模型缺点:训练时间长,容...原创 2018-03-18 19:11:13 · 3072 阅读 · 0 评论 -
Sklearn GridSearchCV 参数优化
2018/3/16更新:遇到个参数优化的需求,不禁想起了网格搜索算法,还是比较好用的,存在的问题:速度慢,每次更新参数都需要重训练,所以针对这个问题需要自己权衡;下面就已随机森林算法为例,做一个网格优化的Demo。代码如下:这个代码主要优化的是森林规模、森林深度和样本权重import pandas as pdimport numpy as npfrom sklearn.ensem...原创 2018-03-16 15:31:00 · 1476 阅读 · 3 评论