python文本处理
lamedaZzz
天高任鸟飞
展开
-
python自然语言处理-读书笔记4
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'import nltk, re, pprint#从网络和硬盘访问文本#电子书from urllib.request import urlopenfrom bs4 import BeautifulSoup# url = r'https://www.gutenberg.org/files/25...原创 2018-10-11 13:59:07 · 189 阅读 · 0 评论 -
python自然语言处理-读书笔记
#使用UniCode进行文字处理#Unicode支持超过一百万种字符。每个字符分配一个编号,称为编码点。在 Python中, 编码点写作\uXXXX 的形式,其中 XXXX是四位十六进制形式数。#从文件中提取已编码文本import codecspath = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')f = cod...原创 2018-10-17 15:51:32 · 267 阅读 · 0 评论 -
NLTK学习笔记(八):文法--词关系研究的工具
目录文法 自定义文法 文法用途 开发文法 分析文法的算法 递归下降解析器 移进-归约解析器 基于特征的文法 属性和约束 处理特征结构 包含和统一 总结对于一门语言来说,一句话有无限可能。问题是我们只能通过有限的程序来分析结构和含义。尝试将“语言”理解为:仅仅是所有合乎文法的句子的大集合。在这个思路的基础上,类似于 word -> word ...转载 2018-10-17 15:47:18 · 514 阅读 · 0 评论 -
NLTK学习笔记(七):文本信息提取
目录实体识别:分块技术 分块语法的构建 树状图 IOB标记 开发和评估分块器 命名实体识别和信息提取如何构建一个系统,用于从非结构化的文本中提取结构化的信息和数据?哪些方法使用这类行为?哪些语料库适合这项工作?是否可以训练和评估模型?信息提取,特别是结构化信息提取,可以类比数据库的记录。对应的关系绑定了对应的数据信息。针对自然语言这类非结构化的数据,为了获取对应关...转载 2018-10-17 15:46:17 · 896 阅读 · 0 评论 -
python自然语言处理-读书笔记9
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'#第六章 学习分类文本# 1. 我们怎样才能识别语言数据中能明显用于对其分类的特征? 2. 我们怎样才能构建语言模型,用于自动执行语言处理任务? 3. 从这些模型中我们可以学到哪些关于语言的知识?#6.1 有监督分类 如果分类的建立基于包含每个输入的正确标签的训练语料,被称为有监督分类。#...原创 2018-10-17 15:28:28 · 412 阅读 · 0 评论 -
python自然语言处理-读书笔记8
#N-Gram Tagging N元语法标注#一元标注(Unigram Tagging)一元标注器基于一个简单的统计算法:对每个标识符分配这个独特的标识符最有可能的 标记。例如:它将分配标记 JJ 给词 frequent 的所有出现,因为frequent 用作一个形容词(例 如:a frequent word)比用作一个动词(例如:I frequent this cafe)更常见。#训练一...原创 2018-10-17 10:47:30 · 332 阅读 · 0 评论 -
python自然语言处理-读书笔记7
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'#分类和标注词汇#使用词性标注器import nltk# text = nltk.word_tokenize("And now for something completely different")# print(nltk.pos_tag(text))#在这里我们看到and 是 CC,...原创 2018-10-17 09:45:47 · 324 阅读 · 0 评论 -
python自然语言处理-读书笔记3
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'import nltkfrom nltk.corpus import gutenberg #古腾堡语料库from nltk.corpus import webtext #w网络聊天文本from nltk.corpus import nps_chatfrom nltk.corpus impor...原创 2018-10-10 14:25:47 · 227 阅读 · 0 评论 -
python自认语言处理-读书笔记2
原创 2018-10-10 10:38:45 · 179 阅读 · 1 评论 -
python自然语言处理 -读书笔记1
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'import nltkfrom nltk.book import *# print(text1.concordance("monstrous"))#显示一个指 定单词的每一次出现,连同一些上下文一起显示# print(text2.similar("monstrous"))#查看在text2中与...原创 2018-10-10 09:43:43 · 212 阅读 · 1 评论 -
python自然语言处理-读书笔记6
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'#4.1 回到基础#赋值#等式#条件语句#all()函数和any()函数可以应用到一个链表(或其他序列),来检查是否全部或任一项 目满足一些条件:# sent = ['No', 'good', 'fish', 'goes', 'anywhere', 'without', 'a', '...原创 2018-10-16 15:53:24 · 205 阅读 · 0 评论 -
python保留字
标题原创 2018-10-09 10:18:31 · 215 阅读 · 0 评论 -
流畅的python-读书笔记unit2
# -*- coding:utf-8 -*-# __author__ = 'lipzhang'#第2章 序列构成的数组#2.1 内置序列类型概览# 容器序列# list、tuple 和 collections.deque 这些序列能存放不同类型的数据。# 扁平序列# str、bytes、bytearray、memoryview 和 array.array,这类序列只能容纳一种类型。...原创 2018-10-18 15:03:09 · 381 阅读 · 0 评论 -
流畅的python-读书笔记unit1
from math import hypotclass Vector: def __init__(self, x=0, y=0): self.x = x self.y = y def __repr__(self):#__repr__ 和 __str__ 的区别在于,后者是在 str() 函数被使用,或是在用 print 函数打印 一个对象的...原创 2018-10-18 09:42:06 · 210 阅读 · 0 评论 -
python自然语言处理-读书笔记5
#使用UniCode进行文字处理#Unicode支持超过一百万种字符。每个字符分配一个编号,称为编码点。在 Python中, 编码点写作\uXXXX 的形式,其中 XXXX是四位十六进制形式数。#从文件中提取已编码文本import codecspath = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')f = cod...原创 2018-10-12 14:48:06 · 382 阅读 · 0 评论 -
主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
刷比赛利器,感谢分享的人。 摘要 最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io...转载 2018-10-22 18:41:10 · 800 阅读 · 0 评论