2017年12月_老三是只猫

12月

原创机器学习算法-朴素贝叶斯算法

朴素贝叶斯简述朴素贝叶斯是一种简单但是非常强大的线性分类器，它在垃圾邮件分类、疾病诊断中都已经取得了很大的成功，它之所以称为朴素，是因为它假设特征之间是互相独立的，但是在现实生活中，这种假设基本上是不成立的，那么即使是假设的不成立的条件下，它依然表现良好，尤其是在小规模样本的情况下，但是，如果每个特征之间有很强的关联性和非线性问题会导致贝叶斯模型很差的分类效果。贝叶斯公式为： p(y|x)=p

2017-12-29 17:32:27 345

原创 python__tile函数的用法

tile()函数的格式tile(A,reps)A和reps都是array_like>>> tile(1,2)array([1, 1])>>> tile((1,2,3),3)array([1, 2, 3, 1, 2, 3, 1, 2, 3])>>> tile(a,2)array([[1, 2, 3, 1, 2, 3], [4, 5, 5, 4, 5, 5]])>>> b

2017-12-29 13:39:21 333

原创 python--数据字典的一些用法

a = {'a':2,'c':4,'b':5}1：dict.copy：返回一个字典的浅复制2:dict.get(key,default=None):返回指定键的值，如果值不在字典中返回default值）a.get('a')3:dict.has_key(key):如果键在字典dict里返回true，否则返回false4：dict.keys()5:dict.items() ：以列表的形式返回遍

2017-12-29 13:27:31 1948

转载 python--对比两个Excel不同

############################对比两个版本的Excel数据的异同###########################import xlrdimport xlwtimport osl_p = [] #定义两个全局list，分别存储原始和目的需要对比的数据l_t = []def read_excel(): wb_pri = xlrd.open_work

2017-12-22 14:22:40 19658 5

原创 pandas--系列之groupby

闲话少说直接上代码和思路import numpy as npimport pandas as pddf = pd.DataFrame({'key1':list('aabba'), 'key2': ['one','two','one','two','one'], 'data1': np.random.randn(5),

2017-12-22 13:02:04 509

事不宜迟，动手最重要。词向量维度用了128，句子长度截断为32（抛弃了多于32字的样本，这部分样本很少，事实上，用逗号、句号等天然分隔符分开后，句子很少有多于32字的。）。这次我用了5tag，在原来的4tag的基础上，加上了一个x标签，用来表示不够32字的部分，比如句子是20字的，那么第21～32个标签均为x。在数据方面，我用了Bakeoff 2005的语料中微软亚洲研究院（Microsoft Re

2017-12-19 19:12:14 2301

转载中文分词系列总结

目前中文分词主要有两种思路：查词典和字标注。首先，查词典的方法有：机械的最大匹配法、最少词数法，以及基于有向无环图的最大概率组合，还有基于语言模型的最大概率组合，等等。查词典的方法简单高效（得益于动态规划的思想），尤其是结合了语言模型的最大概率法，能够很好地解决歧义问题，但对于中文分词一大难度——未登录词（中文分词有两大难度：歧义和未登录词），则无法解决；为此，人们也提出了基于字标注的思路，所谓字标

2017-12-19 18:34:35 423

原创介绍两个python库

1：pqdm 主要是用来显示进度条的，而且基本不影响源程序效率。from time import sleepfrom tqdm import tqdmfor i in tqdm(range(1000)): sleep(0.01)2：retry 顾名思义这是一个实现重试的。很多时候我们都需要重试功能，比如写爬虫的时候，有时候就会出现网络问题导致爬虫失败，然后就需简要重试了from re

2017-12-19 17:50:34 518

原创文本情感分类（四）

文本情感分类其实是一个二分类的问题，事实上，对于分类模型，都会存在这样一个毛病，优化目标跟考核指标不一致。通常来说，对于分类，我们都会采用交叉熵作为损失函数，他的来源就是最大似然估计，但是，我们最后的评估目标，并非要看交叉熵有多小，而是看模型的准确率，一般来说，交叉熵很小，准确率也会很高，但是这个关系并非必然的。

2017-12-19 17:39:29 1078

转载文本情感分类（三）：到底需不需要分词

深度学习是一种“端到端”的模型，所谓端到端就是能够将原始数据和标签输入，然后让模型自己完成一切过程-包括特征的提取、模型的学习。。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果，但是有些疑问还是需要进一步测试解决的。对于中文来说，字才是最低粒度的文字单位，因此从“端到端”的角度来看，应

2017-12-19 17:30:45 1519

原创文本情感分类（二）

该篇文章中，主要探讨关于深度学习解决自然语言问题。深度学习与自然语言处理近年来，深度学习算法被应用到了自然语言处理领域，获得了比传统模型更优秀的成果。在自然语言处理中，最核心的一个问题是，如何把一个句子用数字的形式有效的表达出来？如果能够完成这一步，句子的分类就不成问题了。显然，一个最初的思路是：给每个词语赋予唯一的编号1,2,3,4…，然后把句子看成是编号的集合，比如假设1,2,3,4

2017-12-19 11:01:21 1881

原创文本情感分类（一）

基于情感词典的文本情感分类古典文本分类的流程：根据上图，我们可以通过以下几个步骤实现基于情感词典的文本情感分类： 1：预处理 2：分词 3：训练情感词典 4：判断。以下主要分几个不追将上述上面的内容一、文本的预处理这部分的主要内容来自爬虫获取。二、分词选用结巴分词即可三、载入情感词典一般来说，词典是文本挖掘的最核心的部分，对于情感分类也不例外。情感词典主要

2017-12-19 09:04:04 4488