- 博客(28)
- 收藏
- 关注
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:12 安装指导
12 安装指导12.1 安装Python、pip和NLTK12.2 安装PyCharm开发环境12.3 安装依赖库12.4 框架安装指导12.5 解决你的疑问12.6 总结本附录为您提供了有关安装Python库、单节点Hadoop集群和单节点Spark集群的信息。如果你想问我有关这本书的问题或任何与NLP有关的问题,你可以加入我的Gitter。12.1 安装Python、pip和NLTKpi...
2019-02-04 09:32:36 4265
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:11 如何提高你的NLP技能
11 如何提高你的NLP技能11.1 开始新的NLP职业生涯11.2 备忘列表11.3 确定你的领域11.4 通过敏捷的工作来实现成功11.5 NLP和数据科学方面一些有用的博客11.6 使用公开的数据集11.7 数据科学领域需要的数学知识11.8 总结本附录将为您提供更多关于如何提高NLP技能的信息。这也将帮助您更新您的知识。11.1 开始新的NLP职业生涯如果你是一名编码员,想要在NLP...
2019-02-04 09:31:29 692
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:10 高级工具
10 高级工具10.1 使用Apache Hadoop作为存储框架10.2 使用Apache Spark作为数据处理框架10.3 使用Apache Flink作为数据实时处理框架10.4 Python中的可视化类库本附录重点介绍如何在NLP应用程序中使用各种框架。我们将查看这些框架的概述,并介绍它们的基本特性以及它们为您做了什么。我们不会看到每个框架的详细架构。这里,目的是让您了解可以一起用于构...
2019-02-04 09:30:08 1125
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:09 NLU和NLG问题中的深度学习
09 NLU和NLG问题中的深度学习9.1 人工智能概览9.1.1 人工智能的基础9.1.2 人工智能的阶段9.1.3 人工智能的种类9.1.4 人工智能的目标和应用9.2 NLU和NLG之间的区别9.2.1 自然语言理解9.2.2 自然语言生成9.3 深度学习概览9.4 神经网络基础9.4.1 神经元的第一个计算模型9.4.2 感知机9.4.3 理解人工神经网络中的数学概念9.5 实现神经网络9...
2019-02-04 09:28:49 3190
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:08 自然语言处理中的机器学习方法
08 自然语言处理中的机器学习方法8.1 机器学习的基本概念8.1.1 ML类型8.1.2 ML 监督学习8.1.3 无监督学习8.1.4 强化学习8.2 自然语言处理应用的开发步骤8.2.1 第一次迭代时的开发步骤8.2.2 从第二次到第N次迭代的开发步骤8.3 机器学习算法和其他概念8.3.1 有监督机器学习方法逻辑回归决策树随机森林朴素贝叶斯支持向量机8.3.2 无监督机器学习方法k-均值聚...
2019-02-03 12:06:18 3446
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:07 规则式自然语言处理系统
07 规则式自然语言处理系统7.1 规则式系统7.2 规则式系统的目的7.2.1 为何需要规则式系统7.2.2 使用规则式系统的应用7.2.3 练习7.2.4 开发规则式系统需要的资源7.3 规则式系统的架构7.3.1 从专家系统的角度来看规则式系统的通用架构7.3.2 NLP应用中的规则式系统的实用架构7.3.3 NLP应用中的规则式系统的定制架构7.3.4 练习7.3.5 Apache UIM...
2019-02-01 10:41:13 3234
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:06 高级特征工程和NLP算法
06 高级特征工程和NLP算法6.1 词嵌入6.2 word2vec基础6.2.1 分布语义6.2.2 定义word2vec6.2.3 无监督分布语义模型中的必需品6.3 word2vec模型从黑盒到白盒6.3.1 基于分布相似性的表示6.3.2 了解word2vec模型的组件6.3.3 了解word2vec模型的逻辑6.3.4 了解word2vec模型背后的算法和数学6.3.5 关于word2v...
2019-01-31 09:38:54 2707
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:05 特征工程和NLP算法
05 特征工程和NLP算法5.1 理解特征工程5.1.1 特征工程的定义5.1.2 特征工程的目的5.1.3 一些挑战5.2 NLP中的基础特征5.2.1 句法解析和句法解析器5.2.2 词性标注和词性标注器理解词性标注和词性标注器的概念一步步开发词性标注器即插即用现有词性标注器使用词性标注作为特征挑战5.2.3 命名实体识别NER类Stanford NERSpacy NER提取和理解特征挑战5....
2019-01-29 17:24:00 1727
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:04 预处理
03 预处理4.1 处理原始语料库文本4.1.1 获取原始文本4.1.2 小写化转换4.1.3 分句4.1.4 原始文本词干提取4.1.5 原始文本词形还原4.1.6 停用词去除4.2 处理原始语料库句子4.2.1 词条化4.2.2 单词词形还原4.3 基础预处理4.3.1 正则表达式4.3.2 基本级正则表达式4.3.3 高级正则表达式4.4 实践和个性化预处理4.4.1 由你自己决定4.4.2...
2019-01-27 10:09:23 1394
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:03 理解句子的结构
03 理解句子的结构3.1 理解NLP的组成3.1.1 自然语言理解3.1.2 自然语言生成3.1.3 NLU和NLG的区别3.1.4 NLP的分支3.2 上下文无关文法3.3 形态分析3.3.1 形态学3.3.2 词素3.3.3 词干3.3.4 形态分析3.3.5 词3.3.6 词素的分类3.3.7 词干和词根的区别3.4 词法分析3.4.1 词条3.4.2 词性标注3.4.3 导出词条的过程3...
2019-01-26 10:59:27 1324
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第11章 语言数据管理
第11章 语言数据管理11.1 语料库结构:一个案例研究主要设计特点基本数据类型11.2 语料库生命周期语料库创建的三种方案质量控制维护与演变11.3 数据采集从网上获取数据从字处理器文件获取数据从电子表格和数据库中获取数据转换数据格式决定要包含的标注层标准和工具处理濒危语言时特别注意事项11.4 使用XML语言结构中使用XMLElementTree接口使用ElementTree访问Toolbox...
2019-01-18 09:02:09 947
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第10章 分析句子的意思
第10章 分析句子的意思10.1 自然语言理解查询数据库自然语言、语义和逻辑10.2 命题逻辑10.3 一阶逻辑一阶定理证明一阶逻辑语言总结真值模型独立变量和赋值量化量词范围歧义模型的建立10.4 英语句子的语义λ演算量化的NP及物动词再述量词歧义10.5 段落语义层段落表示理论段落处理10.6 小结import nltk如何能表示自然语言的意思,使计算机能够处理这些表示?怎样才能将意思...
2019-01-17 21:07:40 1327
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第09章 建立基于特征的文法
第09章 建立基于特征的文法9.1 文法特征句法协议使用属性和约束术语9.2 处理特征结构包含和统一9.3 扩展基于特征的文法子类别核心词回顾助动词与倒装无限制依赖成分9.4 小结import nltk怎样用特征扩展上下文无关文法框架,以获得更细粒度的对文法类别和产生式的控制?特征结构的主要形式化属性是什么,如何使用它们来计算?用基于特征的文法能捕捉到什么语言模式和文法结构?9.1...
2019-01-17 17:15:25 3893 2
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第08章 分析句子结构
第08章 分析句子结构8.1 一些语法困境语言数据和无限可能性普遍存在的歧义8.2 文法有什么用?超越n-grams8.3 上下文无关文法一种简单的文法写你自己的文法句法结构中的递归8.4 上下文无关文法分析递归下降分析移进-归约分析左角落分析器图表分析8.5 依存关系和依存文法配价与词汇扩大规模8.6 文法开发有害的歧义加权文法概率上下文无关文法(probabilistic context-fr...
2019-01-17 15:08:40 1121
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第07章 从文本提取信息
第07章 从文本提取信息7.1 信息提取信息提取结构7.2 分块名词短语分块标记模式探索文本语料库加缝隙块的表示:标记与树7.3 开发和评估分块器读取IOB 格式与CoNLL2000分块语料库简单评估和基准训练基于分类器的分块器7.4 语言结构中的递归用级联分块器构建嵌套结构树树遍历7.5 命名实体识别7.6 关系抽取7.7 小结import nltk, re, pprint回答下列问题:...
2019-01-17 11:29:14 997
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第06章 学习分类文本
第06章 学习分类文本6.1 有监督分类性别鉴定选择正确的特征文档分类探索上下文语境序列分类其他序列分类方法6.2 有监督分类的更多例子句子分割识别对话行为类型识别文字蕴含扩展到大型数据集6.3 评估测试集准确度精确度和召回率混淆矩阵交叉验证6.4 决策树熵和信息增益6.5 朴素贝叶斯分类器潜在概率模型零计数和平滑非二元特征独立的朴素双重计数的原因6.6 最大熵分类器最大熵模型熵的最大化生成式分类...
2019-01-16 19:53:31 1135
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第05章 分类和标注词汇
第05章 分类和标注词汇5.1 使用词性标注器5.2 标注语料库表示已标注的标识读取已标注的语料库简化的词性标记集名词动词形容词和副词未简化的标记探索已标注的语料库5.3 使用Python 字典映射词及其属性索引链表VS 字典Python字典定义字典默认字典递增地更新字典复杂的键和值颠倒字典5.4 自动标注默认标注器正则表达式标注器查询标注器评估5.5 N-gram 标注一元标注(Unigram ...
2019-01-16 15:46:01 1500
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第04章 编写结构化程序
第04章 编写结构化程序4.1 回到基础赋值等式条件语句4.2 序列序列类型上的操作合并不同类型的序列产生器表达式4.3 风格的问题过程风格与声明风格计数器的一些合理用途4.4 函数:结构化编程的基础函数的输入和输出参数传递变量的作用域参数类型检查功能分解文档说明函数4.5 更多关于函数作为参数的函数累计函数高阶函数参数的命名4.6 程序开发Python模块的结构多模块程序误差源头调试技术防御性编...
2019-01-16 09:25:51 1404
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第03章 加工原料文本
第03章 加工原料文本3.1 从网络和硬盘访问文本电子书处理的HTML处理搜索引擎的结果处理RSS 订阅读取本地文件从PDF、MS Word 及其他二进制格式中提取文本捕获用户输入NLP 的流程3.2 字符串最底层的文本处理字符串的基本操作输出字符串访问单个字符访问子字符串更多的字符串操作链表与字符串的差异3.3 使用Unicode 进行文字处理什么是Unicode?从文件中提取已编码文本在Pyt...
2019-01-14 09:26:21 3113
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第02章 获得文本语料和词汇资源
第02章 获得文本语料和词汇资源2.1 获取文本语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库文本语料库的结构载入你自己的语料库中文自然语言处理 语料/数据集情感/观点/评论 倾向性分析中文命名实体识别推荐系统2.2 条件频率分布条件和事件按文体计数词汇绘制分布图和分布表使用双连词生成随机文本2.3 更多关于Python代码重用使用文本编辑器创...
2019-01-13 16:22:32 3257
原创 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第01章 语言处理与Python
第01章 语言处理与Python1.1 语言计算:文本和单词Python入门NLTK 入门搜索文本计数词汇1.2 近观Python:将文本当做词链表链表(list,也叫列表)索引列表变量字符串1.3 计算语言:简单的统计频率分布细粒度的选择词词语搭配和双连词(bigrams)计数其他东西1.4 回到Python决策与控制条件对每个元素进行操作嵌套代码块条件循环1.5 自动理解自然语言词意消歧指代消...
2019-01-13 09:54:12 2718
原创 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第七章 句法分析技术
《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第七章 句法分析技术
2019-01-11 20:22:15 1047
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:01 WIN 7 Anaconda python 3.5 NLTK 安装配置
安装Anaconda安装NLTK安装Anaconda下载Anaconda 中 支持python 3.5(WIN 7)版本(本人桌面系统环境)地址:https://repo.continuum.io/archive/文件:https://repo.continuum.io/archive/Anaconda3-4.2.0-Windows-x86_64.exe修改Anaconda中的Ju...
2019-01-11 19:15:31 591
原创 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:02 语料库和数据集
什么是语料库?为什么我们需要语料库?理解语料库分析?什么是语料库?在语料库中,大数据集合可以采用以下格式:文本数据,意思是书面材料语音数据,即语音材料语料库有三种类型:单语语料库:这种语料库只有一种语言双语语料库:这种语料库有两种语言多语言语料库:这种语料库有多种语言例如:谷歌图书NGRAM语料库布朗语料库美国国家语料库为什么我们需要语料库?创建语料库的挑战...
2019-01-11 15:37:33 1463
原创 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型
《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型
2019-01-11 09:42:34 775
原创 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第五章 n-gram语言模型
《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第五章 n-gram语言模型
2019-01-10 09:07:00 926
原创 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 数学基础与语言学基础
前言关毅老师,现为哈工大计算机学院语言技术中心教授,博士生导师。通过认真学习了《自然语言处理(哈工大 关毅 64集视频)》1(来自互联网)的课程,受益良多,在此感谢关毅老师的辛勤工作!为进一步深入理解课程内容,对部分内容进行了延伸学习2 3,在此分享,期待对大家有所帮助,欢迎加我微信(验证:NLP),一起学习讨论,不足之处,欢迎指正。视频列表:10数学基础与语言学基础 一11数学基础与...
2019-01-08 05:30:06 1300
原创 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第一章 自然语言处理概论
《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 自然语言处理概论
2019-01-08 05:29:20 2077 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人