- 博客(13)
- 资源 (9)
- 收藏
- 关注
原创 建立知识体系
最近发现一个工程上重复性问题,比如自己在做自然语言处理的项目,可能在这些项目预处理阶段,都差不多有一个构建整个语料的词汇表步骤或者要实现这样一个功能,但是参照了很多项目,每次这个函数都不同,自己应该形成自己的体系,每次写这个功能,就用自己的方法就行了 ...
2018-07-26 17:56:39 75
原创 文本分类(下)-卷积神经网络(CNN)在文本分类上的应用
1 简介原先写过两篇文章,分别介绍了传统机器学习方法在文本分类上的应用以及CNN原理,然后本篇文章结合两篇论文展开,主要讲述下CNN在文本分类上的应用。前面两部分内容主要是来自两位博主的文章(文章中已经给出原文链接),是对两篇论文的解读以及总结,基本上阐释了CNN文本分类模型;后半部分讲一个实例和项目实战2 论文1《Convolutional Neur...
2018-07-25 18:02:00 890
原创 Python 中argparse模块的使用
Python解析命令行读取参数有两种方式:sys.argv和argparse1 sys.argv如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用sys.argv将脚本后的参数依次读取(读进来的默认是字符串格式)。import sysprint("输入的参数为:%s" % sys.argv[1])命令行执行效果:>pytho...
2018-07-24 17:33:00 176
原创 PageRank算法原理与实现
1 PageRank1.1 简介PageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。假设一个由4个网页...
2018-07-20 16:50:00 989
原创 卷积神经网络(CNN)介绍与实践
1 CNN的前生今世1.1 大脑作为人类,我们不断地通过眼睛来观察和分析周围的世界,我们不需要刻意的“努力”思考,就可以对岁看到的一切做出预测,并对它们采取行动。当我们看到某些东西时,我们会根据我们过去学到的东西来标记每个对象。为了说明这些情况,请看下面这张图片: https://medium.freecodecamp.org/an-intuitive-guide-to-convol...
2018-07-19 16:46:44 2142
原创 卷积神经网络(CNN)介绍与实践
1 CNN的前生今世1.1 大脑作为人类,我们不断地通过眼睛来观察和分析周围的世界,我们不需要刻意的“努力”思考,就可以对所看到的一切做出预测,并对它们采取行动。当我们看到某些东西时,我们会根据我们过去学到的东西来标记每个对象。为了说明这些情况,请看下面这张图片:资料来源:https://medium.freecodecamp.org/a...
2018-07-19 16:29:00 328 1
原创 Keras实现文本预处理
from keras.preprocessing.text import text_to_word_sequencefrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequencestext1 = "今天 北京 下 ...
2018-07-16 20:48:00 723
原创 文本分类(上)- 基于传统机器学习方法进行文本分类
简介自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛,上一周主要在做这一个比赛,看了一写论文和资料,github上搜刮下。。感觉一下子接触的知识很多,自己乘热打铁整理下吧。接着上一篇文章20 newsgroups数据介绍以及文本分类实例,我们继续探讨下文本分类方法。文本分类作为NLP领域最为经典场景之一,当目前为止在业界和学术界已经积累了很多方法...
2018-07-16 16:37:00 2070
原创 20 newsgroups数据介绍以及文本分类实例
简介20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类.基本使用sklearn提供了该数据的接口:sklearn.datasets.fetch_20newsgroups,我们以sklearn的文档来解释下如何使用该数据...
2018-07-16 16:07:00 14286
原创 Python 使用collections统计词频
方法1dictionary = {}for word in word_list: if not word in dictionary: dictionary[word] = 1 else: dictionary[word]+= 1print(dictionary)输出{'I': 2, 'am'...
2018-07-05 11:03:00 3376
原创 Python itertools的使用
简介Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。无限迭代器countcount()会创建一个无限的迭代器,所以上述代码会打印出自然数序列,根本停不下来,只能按Ctrl+C退出。import itertoolsnatuals = itertools.count(1)for n in natuals: ...
2018-07-05 10:41:00 397
原创 Python pickle的使用
pickle简介pickle模块是对Python对象结构进行二进制序列化和反序列化的协议实现,就是把Python数据变成流的形式。实例import pickledataList = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0,...
2018-07-05 10:13:00 268
原创 《Reasoning about Entailment with Neural Attention》阅读笔记
题目直译的话就是使用神经网络注意力机制实现蕴涵推理,文章主要讲述了如何使用LSTM和Attention做英文阅读理解,结合数据集讲就是给出一段话或者说是上下文文本1(hypothesis),然后给出一个结论或者摘要文本2(premise),判断两个文本的关系:ENTAILMENT:相关,有密切联系,都在讲述同一件事情NEUTRAL :中立CO...
2018-07-02 11:42:00 568
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人