- 博客(49)
- 收藏
- 关注

原创 情感分析论文中涉及的数据
基于三支决策的多粒度文本情感分类模型–张越兵、苗夺谦、 张志飞、中文语料库选用谭松波在携程(http://www.ctrip.com)上采集的酒店评论ChnSentiCorp-Htl-ba-600,其中包括正、负极性的酒店评论各3000篇。数据网址:http://www.searchforum.org.cn/tansongbo/corpus...
2020-08-18 15:07:18
999
原创 数据集资源整理
数据集资源整理城市计算数据UCI标准数据库Google AI数据集(测试),需翻墙Movielens数据集(电影数据库)亚马逊的公开数据集Yelp(美国的美食数据)歌曲数据集英国伦敦公开数据加拿大开放数据ICWSM-2009年的数据集安然邮件数据集纳斯达克Data Store数据存储系统Airbnb 开放的民宿信息和住客评论数据Amazon 食品评论数据【Kaggle数...
2020-08-26 17:00:26
1929
原创 信息增益,信息增益率,信息熵,互信息,交叉熵,条件熵,gini系数
信息熵信息增益Gain(A)=I(A) -H(A)信息增益的理解: 对于待划分的数据集D,其 entroy(前)是一定的,但是划分之后的熵 entroy(后)是不定的,entroy(后)越小说明使用此特征划分得到的子集的不确定性越小(也就是纯度越高),因此 entroy(前) - entroy(后)差异越大,说明使用当前特征划分数据集D的话,其纯度上升的更快。而我们在构建最优的决策树的...
2020-08-21 12:13:28
2338
原创 【SQL】快速学习笔记
常见的数据库有MySQL、SQL Server、Access、Oracle、Sybase、DB2等 ,SQL就是用来操作这些数据库的语言我要干什么事 eg: SELECT *在哪里干这件事 FROM Customers对事情的要求是什么 WHERE customers_city = 'china'希望结果是什么 ORDER BY customers_id (一)检索规则【查】语法规则.
2020-05-27 22:38:14
165
原创 决策树算法——XGBoost 和 LightGBM
XGBoostXGBoost 是大规模并行 boosting tree 的工具,它是目前最快最好的开源 boosting tree 工具包,比常见的工具包快 10 倍以上。Xgboost 和 GBDT 两者都是 boosting 方法,除了工程实现、解决问题上的一些差异外,最大的不同就是目标函数的定义。故本文将从数学原理和工程实现上进行介绍,并在最后介绍下 Xgboost 的优点。数学原...
2019-11-07 21:25:40
883
原创 决策树算法——Random Forest、Adaboost、GBDT 算法
集成学习常见的集成学习框架有三种:Bagging,Boosting 和 Stacking。BaggingBagging 全称叫 Bootstrap aggregating,每个基学习器都会对训练集进行有放回抽样得到子训练集,比较著名的采样法为 0.632 自助法。每个基学习器基于不同子训练集进行训练,并综合所有基学习器的预测值得到最终的预测结果。Bagging 常用的综合方法是投票法,...
2019-11-05 15:18:22
484
原创 【numpy】numpy的ufunc学习
ufunc是universal function的缩写,意思是这些函数能够作用于narray对象的每一个元素上,而不是针对narray对象操作,numpy提供了大量的ufunc的函数。这些函数在对narray进行运算的速度比使用循环或者列表推导式要快很多,但请注意,在对单个数值进行运算时,python提供的运算要比numpy效率高。四则运算numpy提供的四则ufunc有如下一些:比较...
2019-11-01 11:12:27
292
原创 字符串正则表达式
正则表达式: 1.字符串模糊匹配,2.字符串有条件匹配Re.match() 从开头开始匹配的Re.match().group(), 得到匹配结果Re.search() 从中间开始匹配,只匹配一次就返回Re.findall() 找到所有的符合的条件,结果放在一个列表中“$” 符号匹配的是 字符串最后一个字符,目标字符串是以 $前面的字符结尾re.split() 以匹配的内容作为分割...
2019-10-27 10:10:21
1597
原创 【NLP】tensorflow进行中文自然语言处理中的情感分析
需要的库numpyjiebagensimtensorflowmatplotlib词向量模型在这个词向量模型里,每一个词是一个索引,对应的是一个长度为300的向量,我们今天需要构建的LSTM神经网络模型并不能直接处理汉字文本,需要先进行分次并把词汇转换为词向量,步骤请参考下图,步骤的讲解会跟着代码一步一步来,如果你不知道RNN,GRU,LSTM是什么,我推荐deeplearning...
2019-10-24 20:34:59
1512
1
原创 文本特征获取
信息增益参考链接TF-IDF参考链接词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含太多与文档有关的...
2019-10-23 20:26:12
195
原创 【NLP文本分类二】各种文本分类算法集锦,从入门到精通
情感分析说白了,就是一个文本(多)分类问题,我看一般的情感分析都是2类(正负面)或者3类(正面、中性和负面)。本文给出14个分类的例子来讲讲各类文本分类模型—从传统的机器学习文本分类模型到现今流行的基于深度学习的文本分类模型,最后给出一个超NB的模型集成,效果最优。在这篇文章中,笔者将讨论自然语言处理中文本分类的相关问题。笔者将使用一个复旦大学开源的文本分类语料库,对文本分类的一般流程和常...
2019-10-23 15:29:42
599
原创 【NLP】注意力机制
Attention 机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是 2014 年 Google Mind 团队的这篇论文 Recurrent Models of Visual Attention,他们在 RNN 模型上使用了 Attention机制来进行图像分类。随后,Bahdanau 等人在论文 Neural Machine Translation b...
2019-10-17 20:21:03
1107
原创 Aspect Based Sentiment Analysis (ABSA)
基于属性的情感分析(Aspect Based Sentiment Analysis)是一种在给定的语料库中同时提取(co-extracting )表达意见和(事物)属性/方面术语(意见目标)以及它们之间的关系的任务。算法概览训练:训练阶段输入训练数据,并输出意见词典(opinion lexicon)和属性词典(aspect lexicon)。 总体说来,训练流程包括以下三个主要步骤:1.第...
2019-10-17 10:57:58
1799
1
原创 Windows命令行操作
“cd”从C盘切换到其他盘,D盘、E盘输入“d:”打开D盘下的某个文件夹输入“cd test”返回上一级目录输入“cd …”回到根目录输入“cd \”参考链接I...
2019-10-16 16:43:07
129
原创 分箱计数--减少数据稀疏度
分箱逻辑:1.类别型特征:1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate)2)类别数在5个以上,建议做降基处理,再根据降基后的类别做分箱2.数值型特征:1)离散型数值特征(特征value的变动幅度较小):若特征value的非重复计数在5个以下,可以直接根据非重复计数值来分箱(binning_cate)若特征value的非重复计数在5个以上,建议根据业务...
2019-10-15 15:34:11
1696
原创 【numpy】numpy学习笔记
Numpy支持大量的维度数组和矩阵运算,对数组运算提供了大量的数学函数库!NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran 代码的工具线性代数、傅里叶变换、随机数生成等功能参考链接I...
2019-10-15 11:29:17
259
原创 ELMO模型
概述 word embedding 是现在自然语言处理中最常用的 word representation 的方法,常用的word embedding 是word2vec的方法,然而word2vec本质上是一个静态模型,也就是说利用word2vec训练完每个词之后,词的表示就固定了,之后使用的时候,无论新...
2019-10-14 15:58:23
862
1
原创 word2vec
word2vecword2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。 相较于传统NLP的高维、稀疏的表示法(One-hot Representation),Word2Vec训练出的词向量是低维、稠密的。Word2Vec利用了词的上下文信息,语义信息更加丰富,目前常...
2019-09-28 21:16:55
620
原创 异常值检测——孤立森林(Isolation Forest)
孤立森林(Isolation Forest)简称iForest,此算法对内存要求很低,且处理速度很快,其时间复杂度也是线性的。可以很好的处理高维数据和大数据,并且也可以作为在线异常检测。算法简介 算法起源于08年的一篇论文《Isolation Forest》,这论文由澳大利亚莫纳什大学的两位教授Fei Tony Liu, Kai Ming T...
2019-09-28 19:23:07
7469
1
原创 box-cox变换
Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候,由于残差epsilon不符合正态分布而不满足建模的条件,这时候要对响应变量Y进行变换,把数据变成正态的。Box-Cox变换,变换之后,可以一定程度上减小残差和预测变量的相关性。【Box-Cox变换即将数据转换为满足正态分布的数据】Bo...
2019-09-28 11:29:35
8703
转载 【NLP文本分类一】14种分类算法进行文本分类
1.解压文件并处理中文乱码2.批量读取和合并文本数据集3.中文文本分词4.停止词使用5.编码器处理文本标签6.算法模型 --常规算法——方法1——k近邻算法 --常规算法——方法2——决策树 --常规算法——方法3——多层感知器 --常规算法——方法4——伯努力贝叶斯 --常规算法——方法5——高斯贝叶斯 --常规算法——方法6——多项式贝叶斯 ...
2019-09-21 10:55:55
705
原创 one-hot编码
one-hot编码是一种特征数字化的方法One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。为什么使用one-hot编码离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码处理离散型数据在回归,分类,聚类等机器学习算法中...
2019-09-11 20:35:39
277
原创 文本数据处理的终极指南【英文文本】
从社交媒体分析到风险管理和网络犯罪保护,处理文本数据已经变得前所未有的重要。目录 (1)文本数据的基本体征提取— 词汇数量— 字符数量— 平均字长— 停用词数量— 特殊字符数量— 数字数量— 大写字母数量(2)文本数据的基本预处理— 小写转换— 去除标点符号— 去除停用词— 去除频现词— 去除稀疏词— 拼写校正— 分词(tokenization)— 词干提取...
2019-09-10 15:17:05
1830
1
原创 从零开始构建推荐引擎综合指南
1 数据收集收集数据是构建推荐引擎的第一步也是最关键的一步。可以通过两种方式收集数据:显式和隐式。显示数据是用户有意提供的信息,比如电影排名,相反隐氏数据则不是用户主动提供,而是从数据流中收集得到的信息,例如搜索历史、点击率、历史订单等。2 数据存储数据量决定了模型的建议有多好,例如,在电影推荐系统中,用户对电影的评价越多,推荐给其他用户的效果就越好。数据类型对采用何种存储类型有很重要的影响...
2019-09-09 17:26:01
359
原创 【NLP】十二种属性降维的方法
降维可以用两种不同的方式来完成: (1) 只保留原始数据集最相关的变量(特征选择) (2) 通过找到一组较小的新变量,每个变量都是输入变量的组合,包含与输入变 量基本相同的信息(降维)(1)遗漏价值比率(Missing Value Ratio)如果任何变量中缺失值的百分比大于该阈值,我们将删除该变量。(2)低方差滤波器(Low Variance Fi...
2019-09-09 16:39:41
1501
原创 LDA相关知识点
(1)最大似然估计(ML)最大似然估计是找到参数 θ 使得样本 X 的联合概率最大,并不会考虑先验知识,频率学派和贝叶斯学派都承认似然函数,频率学派认为参数 θ 是客观存在的,只是未知。通常可以令导数为 0 求得 θ 的值。ML估计不会把先验知识考虑进去,很容易出现过拟合的现象。(2)最大后验估计(MAP)MAP 是为了解决 ML 缺少先验知识的缺点,刚好公式 (5) 后验概率集中了样本...
2019-09-07 11:14:51
232
原创 编程盲区
walk = os.walk('output1')for root, dirs, files in walk:roots 代表需要遍历的根文件夹root 表示正在遍历的文件夹的名字(根/子)dirs 记录正在遍历的文件夹下的子文件夹集合files 记录正在遍历的文件夹中的文件集合<< (左移) >>(右移)PS:左移是变大,左移n位就是乘 2^n右移...
2019-08-22 11:48:38
99
原创 决策树
GBDT(梯度提升树)除了掌握DT基本知识外,还要掌握加法模型、前向分步算法、梯度提升思想可用于分类/回归问题,但是使用的都是CART回归树
2019-08-22 09:53:38
115
原创 Google检索技巧记录
常用类型filetypeGoogle百度均适用。举个栗子,比如我要搜索fluent python这本电子书,我直接google:filetype:pdf fluent python又比如搜索:filetype:ppt 高血压,返回的就是所有包含高血压这个关键词的所有PPT文件。sitesite:是SEO 最熟悉的高级搜索指令,用来搜索某个域名下的所有文件。如:site:htt...
2019-08-20 15:01:19
485
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人