![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 88
小杨算法屋
这个作者很懒,什么都没留下…
展开
-
sklearn系列学习--线性回归LinearRegression
sklearn是python的一个包,也是机器学习中常用的一个模块,里面封装了很多机器学习的算法,不需要对机器学习算法的实现,只需要简单地调用sklearn里相对应的模块即可。机器学习任务通常包括分类classification、回归Regression,常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN。常见...原创 2018-10-10 17:34:56 · 16371 阅读 · 0 评论 -
sklearn系列学习--支持向量机SVM
#coding:utf-8##1 导入svm和数据集from sklearn import svm,datasets##2 调用SVC()clf = svm.SVC()##3 载入鸢尾花数据集iris = datasets.load_iris()X = iris.datay = iris.target##4 fit()训练clf.fit(X,y)##5 predic...原创 2018-10-10 17:49:49 · 930 阅读 · 0 评论 -
CRF进行实体的识别
最近在研究实体的识别,之前在博客中介绍过基于深度学习的实体识别。实验效果还可以!后来对我们所使用的语料进行了分析发现,语料的描述都是很像的,于是在想用传统的机器学习算法效果如何呢?于是尝试了CRF什么是CRFConditional Random Field:条件随机场,一种机器学习技术(模型)语料格式训练和测试文件必须包含多个tokens,每个token包含多个列。token的...原创 2018-11-08 19:13:13 · 3565 阅读 · 0 评论 -
正确率、召回率、F值例子
例子来源:http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:正确率 = 700 / (700 + 200 + 100) = 70%召回率 = 700 / 14...原创 2018-11-15 16:47:15 · 5154 阅读 · 0 评论 -
数据脱敏python
最近在对数据做脱敏的事情,第一次接触这方面的,所以将自己的做法记录了下来,希望对大家有所帮助,仅是自己的一点拙见。1、数据脱敏定义数据脱敏(Data Masking),又称数据混淆、数据漂白、数据去隐私化。是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术,包括静态脱敏(通常在非生产数据库中防止静态数据的滥用)和动态脱敏(生产数据库中传输数据的脱敏)2、任务描述相关单位在...原创 2018-11-23 11:49:59 · 7990 阅读 · 4 评论 -
LTP:Model not loaded!
最近在研究中文名字脱敏问题,主要是基于规则的,但是当文书中的中文名字描述比较没有规则时,则只使用规则是很难提取准确的,于是使用哈工大的语义云技术LTP,但是在调试代码时出现了下面的问题: 后来查了一下,这个是模型的版本问题,后来将模型的版本换成ltp_data_v3.4.0就好用了,运行成功的图显示如下所示:一定可以哦,有什么问题可以交流...原创 2018-11-26 08:48:52 · 2859 阅读 · 7 评论 -
gensim调用doc2vec计算句子的向量
在做句子的相似度时,会想到直接将句子表示成向量的形式,这样就可以将相似度计算的问题转换成两个向量之间的距离问题,网上找了一下发现,在gensim中的doc2vec可以实现将句子转换成向量,具体的代码如下所示:# coding:utf-8import jiebaimport gensimfrom gensim.models.doc2vec import Doc2VecTaggeded...原创 2018-12-21 19:21:38 · 5502 阅读 · 3 评论 -
TF-IDF的简单理解
1、TF-IDF简介TF:Term Frequency 词频,指的是给定一个词在该文档中出现的次数IDF:Inverse Document Frequency 逆文档频率可以简单的理解成:一个词语在一篇文章中出现的次数越多,同时在其他的所有文档中出现的次数越少,越能够代表该文章2、TF IDF计算2.1 TFTF指的是某一个给定的词语在该文档中出现的次数,由于文档的长度不一,防止TF偏向...原创 2019-03-15 16:05:26 · 3917 阅读 · 2 评论