python
AmorFatiall
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
——from Internet
展开
-
决策树算法——Random Forest、Adaboost、GBDT 算法
集成学习常见的集成学习框架有三种:Bagging,Boosting 和 Stacking。BaggingBagging 全称叫 Bootstrap aggregating,每个基学习器都会对训练集进行有放回抽样得到子训练集,比较著名的采样法为 0.632 自助法。每个基学习器基于不同子训练集进行训练,并综合所有基学习器的预测值得到最终的预测结果。Bagging 常用的综合方法是投票法,...原创 2019-11-05 15:18:22 · 420 阅读 · 0 评论 -
【numpy】numpy的ufunc学习
ufunc是universal function的缩写,意思是这些函数能够作用于narray对象的每一个元素上,而不是针对narray对象操作,numpy提供了大量的ufunc的函数。这些函数在对narray进行运算的速度比使用循环或者列表推导式要快很多,但请注意,在对单个数值进行运算时,python提供的运算要比numpy效率高。四则运算numpy提供的四则ufunc有如下一些:比较...原创 2019-11-01 11:12:27 · 229 阅读 · 0 评论 -
【NLP】tensorflow进行中文自然语言处理中的情感分析
需要的库numpyjiebagensimtensorflowmatplotlib词向量模型在这个词向量模型里,每一个词是一个索引,对应的是一个长度为300的向量,我们今天需要构建的LSTM神经网络模型并不能直接处理汉字文本,需要先进行分次并把词汇转换为词向量,步骤请参考下图,步骤的讲解会跟着代码一步一步来,如果你不知道RNN,GRU,LSTM是什么,我推荐deeplearning...原创 2019-10-24 20:34:59 · 1366 阅读 · 1 评论 -
【NLP文本分类二】各种文本分类算法集锦,从入门到精通
情感分析说白了,就是一个文本(多)分类问题,我看一般的情感分析都是2类(正负面)或者3类(正面、中性和负面)。本文给出14个分类的例子来讲讲各类文本分类模型—从传统的机器学习文本分类模型到现今流行的基于深度学习的文本分类模型,最后给出一个超NB的模型集成,效果最优。在这篇文章中,笔者将讨论自然语言处理中文本分类的相关问题。笔者将使用一个复旦大学开源的文本分类语料库,对文本分类的一般流程和常...原创 2019-10-23 15:29:42 · 504 阅读 · 0 评论 -
BERT
参考链接I参考链接II原创 2019-12-09 08:49:38 · 91 阅读 · 0 评论 -
NER+HMM
NER(命名实体识别)HMM(隐马尔科夫模型)原创 2019-10-21 16:03:01 · 1137 阅读 · 0 评论 -
【numpy】numpy学习笔记
Numpy支持大量的维度数组和矩阵运算,对数组运算提供了大量的数学函数库!NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran 代码的工具线性代数、傅里叶变换、随机数生成等功能参考链接I...原创 2019-10-15 11:29:17 · 199 阅读 · 0 评论 -
ELMO模型
概述 word embedding 是现在自然语言处理中最常用的 word representation 的方法,常用的word embedding 是word2vec的方法,然而word2vec本质上是一个静态模型,也就是说利用word2vec训练完每个词之后,词的表示就固定了,之后使用的时候,无论新...原创 2019-10-14 15:58:23 · 719 阅读 · 1 评论 -
python学习技能
如果是零基础入门的话,我个人推荐,嵩天老师的mooc视频+廖雪峰的博客+python3零基础教程+官方文档(摘自朋友推荐)原创 2019-08-19 21:07:20 · 66 阅读 · 0 评论 -
Jupyter notebook错误记录
matplotlib画图清晰度不高,设置像素原创 2019-06-04 21:49:09 · 229 阅读 · 0 评论 -
Python-cross_validation纠错
from sklearn import cross_validation只需将 cross_validation 改为 model_selection 即可。from sklearn.model_selection import KFold, cross_val_scorekf = KFold(titanic.shape[0], n_folds=3, random_state=1) ...原创 2019-05-17 21:17:34 · 678 阅读 · 0 评论 -
Python-格式化输入(format用法)
相对基本格式化输出采用‘%’的方法,format()功能更强大,该函数把字符串当成一个模板,通过传入的参数进行格式化,并且使用大括号‘{}’作为特殊字符代替‘%’>>> print('{} {}'.format('hello','world')) # 不带字段hello world>>> print('{0} {1}'.format('hello','w...原创 2019-05-15 14:22:26 · 1017 阅读 · 0 评论 -
python-lambda匿名函数
lambda只是一个表达式,函数体比def简单很多转载 2019-05-14 14:15:13 · 83 阅读 · 0 评论