自然语言处理
自由的小白
极客极世界!
展开
-
Python批量合并多个txt文件
# -*- coding:utf-8 -*- #os模块中包含很多操作文件和目录的函数 import os #获取目标文件夹的路径 meragefiledir = os.getcwd()+'\\MerageFiles'#获取当前文件夹中的文件名称列表 filenames=os.listdir(meragefiledir) #打开当前目录下的result.txt文件,...原创 2020-04-18 09:57:58 · 4495 阅读 · 2 评论 -
开始动手训练自己的词向量word2vec
本文的主要工作如下:1,中文分词2,文本格式处理3,使用gensim训练词向量模型4,词向量模型的调用等原创 2020-03-28 21:59:46 · 3581 阅读 · 1 评论 -
Bert实现中文文本分类
文章目录参考文献参考文献1,NLP之BERT中文文本分类基本上有了一些介绍,但是缺少具体例子和明确的指明文件路径(应该给出例子)2,如何使用BERT实现中文的文本分类优点是有一个训练和测试集的流程图(可参考)3,使用Bert预训练模型文本分类弥补了1和2的缺点4,测试数据搜索关键词:中文文本分类数据集即可得到。提供小规模的训练样本。5,有用的搜索方式bert 短文本分类h...原创 2020-02-17 12:44:11 · 2997 阅读 · 0 评论 -
crf++各平台使用方法
crf++具体的使用方式,我在这里就不给大家聊了。推荐一篇特别好的文章连接:CRF++进行中文分词实例linux安装:下载linux版本CRF++包-----CRF+±0.58.tar.gz,并解压。cd CRF++-0.58./configuresudo makesudo make installMac安装:1,进入终端窗口,可以按下Command+Space,接着输入T...原创 2020-02-13 17:27:46 · 736 阅读 · 0 评论 -
人工智能入门-02概率论
概率论:其关注的焦点是无处不在的可能性文章目录概率分类古典概率条件概率学派划分频率学派贝叶斯学派概率估计方式最大似然估计法最大后验概率法参考文章概率分类古典概率使用公式通俗表示,即为条件概率条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件A和B,条件概率就是指事件A在事件B已经发生的条件下发生的概率,用...原创 2020-02-09 23:32:55 · 455 阅读 · 0 评论 -
分词之逆向最大匹配法
完整的代码和资料见 github:zlhcsm知识普及:反向最大匹配法的基本原理与正向最大匹配法类似,只是分词顺序变为从右至左。步骤1,一般从一个字符串的结束位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。2,首先看该片段是否在词典中,如果是,则算为一个分出来的词,如果不是,则从左边开始,减少一个字符,然后看短一点的这个片段是否在词典中,一次循环,直到只剩下...原创 2020-01-21 18:59:28 · 1587 阅读 · 0 评论 -
分词之正向最大匹配法
完整资料和代码获取地址github:zlhcsm知识普及-正向最大匹配法:对于输入的一段文本从左至右、以贪心的方式切分出当前位置上长度最大的词。正向最大匹配算法是基于词典的分词方法,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。步骤1,一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。2,首先看该片段是否在词典中,如果是,则算为一...原创 2020-01-19 18:12:49 · 4776 阅读 · 0 评论 -
matplotlib绘制极坐标图 最全面总结
参考链接:数据架构师文章目录matplotlib绘图总结基础概念图示matplotlib绘图总结基础概念图示原创 2019-12-25 09:17:00 · 6034 阅读 · 2 评论 -
《医疗CT文本结构化研究与系统实现》 -分析与实现
文章目录文章链接使用理由文章内容整理文章代码文章链接知网链接使用理由引导性的实现一个医疗知识图谱系统。文章内容整理条件随机场(CRF)和医疗固有规则推导的CT文本命名实体识别的方法。预处理 -> 属性提取 -> 即时结构化分词基于字典、基于统计、基于理解命名体识别词的边界识别(难点)基于规则和字典、基于统计基于统计的方法主要包括:隐马尔可夫模型、最大熵...原创 2019-12-08 09:11:56 · 631 阅读 · 0 评论 -
Neo4j Server shutdown initiated by request.解决方案
问题描述2019-04-02 08:19:29.043+0000 INFO ======== Neo4j 3.5.3 ========2019-04-02 08:19:29.051+0000 INFO Starting...2019-04-02 08:19:30.329+0000 ERROR Failed to start Neo4j: Starting Neo4j failed: Co...原创 2019-12-03 19:02:25 · 4621 阅读 · 0 评论 -
人工智能入门-01线性代数
必懂线性代数概念:**集合:**由某些特定对象汇总而成的集体。**标量:**由单独的数a构成的元素被称为标量(scalar)**向量:**如果多个标量按照一定顺序组成一个序列,这样的元素就被称为向量(vector)**矩阵:**每个向量都由若干个标量构成,如果将向量的所有标量都替换成相同规格的向量,得到的就是矩阵。**张量:**如果将矩阵的每个标量元素在替换为向量的话,得到的就是张量。简...原创 2019-11-06 22:35:16 · 307 阅读 · 0 评论 -
numpy写入csv文件时不使用科学计数法
TIPS:解决在写入csv文件时整数格式出错问题。文章目录具体实现原始保存保留多位小数保留原始位小数保留整数基础知识扫盲numpy.savetxt参数解释具体实现原始保存# 代码一c = np.array([1.1, 2.2, 3.3, 4.4])np.savetxt("test.csv", c , delimiter=",")此时,test.csv效果如下接下来,想取消...原创 2019-08-31 11:29:39 · 10311 阅读 · 6 评论 -
single-pass句子分类
# coding=utf-8import numpy as npfrom math import sqrtimport timeimport matplotlib.pylab as pl# 定义一个簇单元class ClusterUnit: def __init__(self): self.node_list = [] # 该簇存在的节点列表 ...原创 2019-06-26 09:20:15 · 1655 阅读 · 2 评论