NLP
文章平均质量分 81
NLP
这也是计划的一部分
这个作者很懒,什么都没留下…
展开
-
文本挖掘案例:基于CSDN博客文章内容的文本挖掘与词云绘制
文本挖掘案例:利用requests与XPATH对文章的页面源码进行解析,将文章内容获取至本地;而后利用jieba与WordCloud进行文本挖掘与词云绘制,文本挖掘内容包括词性标注,去除停用词,词性分布分析,高频词分析等,对关键词语的选取使用了td-idf准则。原创 2022-11-04 10:34:30 · 662 阅读 · 1 评论 -
GROBID库:利用requests库请求GROBID Web端提高PDF文档解析速度与正确率
之前使用Python调GROBID库进行文档解析,但总是由于网络或是电脑环境原因出现文档解析失败或是用时过长的困扰,观察网页结构后,决定尝试使用requests库完成相应的解析请求与XML文档保存,提高速度与正确率。原创 2022-10-26 20:02:32 · 1693 阅读 · 0 评论 -
搜索引擎:获取并处理mdx英汉词典文件为数据库
获取mdx后缀的词典文件后难以使用,利用程序将其转化成本地的数据库,从而快速读取与查询其中的内容。原创 2022-10-23 15:05:25 · 3120 阅读 · 1 评论 -
搜索引擎:常用信息检索方式介绍与倒排索引实现(Python)
计算机对于文档内容检索有多种可能的方式,如直接从头遍历至尾端,根据我们输入的关键词提取内容。这类检索方式与我们人类阅读的习惯相同,因此实现简单且很容易被接受。若问你《三国演义》中是否存在'舌战群儒'这一词语,我们常常会选择浏览全文从中找出匹配的词语。而从《三国演义》中提取出关键词 , 通过现代计算机不会花费太长时间;但假如目标是世界文学合集呢?企业一年的财务报告呢?又或者是现代信息世界产生的规模更大的文档集。尽管计算机算力强大,线性扫描的信息检索方式也仅仅只能够用于处,我们需要更加高效的检索方式。原创 2022-10-19 11:57:05 · 1393 阅读 · 0 评论 -
搜索引擎:简单文档词条化与语料处理(Python/Java)
词条化:将给定的字符串拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。原创 2022-10-20 18:23:05 · 336 阅读 · 0 评论 -
GROBID库:Windows环境下运行GROBID库解析文档的解决方案
待解决问题:PDF to XML conversion failed with error code: 99;因 GROBID模块已不再支持Windows平台,尝试利用Docker解决该报错。Docker 是基于容器的平台,允许高度可移植的工作负载。Docker 容器可以在开发人员的本机上,数据中心的物理或虚拟机上,云服务上或混合环境中运行。基于镜像,可以秒级启动各种容器。每一种容器都是一个完整的运行环境,容器之间互相隔离。原创 2022-10-22 07:00:00 · 1647 阅读 · 1 评论 -
GROBID库:安装与使用
GROBID(或GROBID)是GeneRation Of BIbliographic Data。GROBID是一个机器学习库,用于提取、解析和重构原始文档(如PDF),将其转换为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的开发始于2008年,当时只是一个爱好。2011年,该工具已经以开源的形式提供。GROBID的工作从一开始就作为副业项目稳定下来,预计将继续下去原创 2022-10-21 20:00:13 · 4698 阅读 · 4 评论