当前搜索:

python-keras文本分类:pretrain词向量+1D卷积神经网络

基于keras实现 利用之前训练好的词向量,基于keras使用1D卷积神经网络完成文本分类任务准备工作 1:训练好的词向量 2:用于训练的文本(已完成分词,每篇文章且还有对应的label)from __future__ import print_function import os impo...
阅读(390) 评论(0)

python-GBDT算法基本思想

GBDT的基本思想是:“积硅步以致千里” 也就是说我每次都只学习一点,然后一步步的接近最终要预测的值(完全是gradient的思想),换句话说,我们先用一个初始值来学习一颗决策树,叶子出可以得到预测值,以及预测之后的残差,然后后面的决策树就要基于前面决策树的残差来学习,直到预测值和真实值的残差为零...
阅读(270) 评论(0)

python-adaboost见解分析2

boosting算法系列的基本思想如下图: 从图中可以看出,Boosting算法的工作机制是首先从训练集用权重训练出一个弱分类器1,根据弱分类器的学习误差率表现来更新训练样本的权重,使得之前弱分类器1学习误差率搞的训练样本点的权重变高,使得这些误差率高的点在后IM哎你的弱分类器2中得到更过的重视...
阅读(94) 评论(0)

python_Adaboost算法原理_初版

运行过程如下: 训练数据中的每个样本,并赋予其一个权重,这些权重构成了向量D,一开始这些权重都初始化成相等值。首先在训练数据上训练处一个弱分类器并计算该分类器的错误率,然后在同一个数据集上在训练弱分类器。在分类器的第二次训练当中,将会调整每个样本的权重,其中第一次分对的样本的权重将会降低,而第一...
阅读(102) 评论(0)

机器学习算法-朴素贝叶斯算法

朴素贝叶斯简述 朴素贝叶斯是一种简单但是非常强大的线性分类器,它在垃圾邮件分类、疾病诊断中都已经取得了很大的成功,它之所以称为朴素,是因为它假设特征之间是互相独立的,但是在现实生活中,这种假设基本上是不成立的,那么即使是假设的不成立的条件下,它依然表现良好,尤其是在小规模样本的情况下,但是,如果...
阅读(88) 评论(0)

python__tile函数的用法

tile() 函数的格式tile(A,reps) A和reps都是array_like >>> tile(1,2) array([1, 1]) >>> tile((1,2,3),3) array([1, 2, 3, 1, 2, 3, 1, 2, 3]) >...
阅读(76) 评论(0)

python--数据字典的一些用法

a = {'a':2,'c':4,'b':5} 1:dict.copy:返回一个字典的浅复制 2:dict.get(key,default=None):返回指定键的值,如果值不在字典中返回default值) a.get('a')3:dict.has_key(key):如果键在字典dict里返回tr...
阅读(269) 评论(0)

python--对比两个Excel不同

########################### #对比两个版本的Excel数据的异同 ########################### import xlrd import xlwt import os l_p = [] #定义两个全局list,分别存储原始和目的需要对比的数据 l_...
阅读(1045) 评论(1)

pandas--系列之groupby

闲话少说直接上代码和思路import numpy as np import pandas as pd df = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one']...
阅读(137) 评论(0)

基于双向LSTM的seq2seq字标注

事不宜迟,动手最重要。词向量维度用了128,句子长度截断为32(抛弃了多于32字的样本,这部分样本很少,事实上,用逗号、句号等天然分隔符分开后,句子很少有多于32字的。)。这次我用了5tag,在原来的4tag的基础上,加上了一个x标签,用来表示不够32字的部分,比如句子是20字的,那么第21~32...
阅读(192) 评论(0)

中文分词系列总结

目前中文分词主要有两种思路:查词典和字标注。首先,查词典的方法有:机械的最大匹配法、最少词数法,以及基于有向无环图的最大概率组合,还有基于语言模型的最大概率组合,等等。查词典的方法简单高效(得益于动态规划的思想),尤其是结合了语言模型的最大概率法,能够很好地解决歧义问题,但对于中文分词一大难度——...
阅读(61) 评论(0)

介绍两个python库

1:pqdm 主要是用来显示进度条的,而且基本不影响源程序效率。from time import sleep from tqdm import tqdm for i in tqdm(range(1000)): sleep(0.01)2:retry 顾名思义这是一个实现重试的。很多时候我...
阅读(76) 评论(0)

文本情感分类(四)

文本情感分类其实是一个二分类的问题,事实上,对于分类模型,都会存在这样一个毛病,优化目标跟考核指标不一致。通常来说,对于分类,我们都会采用交叉熵作为损失函数,他的来源就是最大似然估计,但是,我们最后的评估目标,并非要看交叉熵有多小,而是看模型的准确率,一般来说,交叉熵很小,准确率也会很高,但是这个...
阅读(148) 评论(0)

文本情感分类(三):到底需不需要分词

深度学习是一种“端到端”的模型,所谓端到端就是能够将原始数据和标签输入,然后让模型自己完成一切过程-包括特征的提取、模型的学习。。而回顾我们做中文情感分类的过程,一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果,但是...
阅读(194) 评论(0)

文本情感分类(二)

该篇文章中,主要探讨关于深度学习解决自然语言问题。 深度学习与自然语言处理 近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。 在自然语言处理中,最核心的一个问题是,如何把一个句子用数字的形式有效的表达出来?如果能够完成这一步,句子的分类就不成问题了。显然,一个最...
阅读(242) 评论(0)

文本情感分类(一)

基于情感词典的文本情感分类 古典文本分类的流程: 根据上图,我们可以通过以下几个步骤实现基于情感词典的文本情感分类: 1:预处理 2:分词 3:训练情感词典 4:判断。 以下主要分几个不追将上述上面的内容 一、文本的预处理 这部分的主要内容来自爬虫获取。 二、分词 选用结巴分...
阅读(221) 评论(0)

R:特征选择算法

library(Boruta) traindata=read.csv("train.csv",header = T,stringsAsFactors = F) #gsub功能被用来将一种表达式用另一种方式代替 str(traindata) names(traindata)=gs...
阅读(3072) 评论(0)

sparkSQL:dataframe

DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行 3、 count() 返回一个number类型的,返回data...
阅读(2979) 评论(0)

R中的集中算法集成

dataset = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data", sep = ",",header = F, ...
阅读(1801) 评论(0)

data.table

''' data.table(DT)的操作语句类似于SQL,DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列,它更加的灵活多变。 符号 ” := “快速的...
阅读(415) 评论(0)
    个人资料
    持之以恒
    等级:
    访问量: 6万+
    积分: 1236
    排名: 4万+
    最新评论