CSAIWQYB-CSDN博客

原创 NLP研究之命名实体识别(下)

上篇(NLP研究之命名实体识别(上))介绍了命名实体识别的基本概念、应用、以及其挑战性所在，本期接着来探讨

2022-04-17 17:56:35 901

命名实体识别(Named Entity Recognition，NER)，是NLP领域的一项基础任务，与分词、词性标注都属于词法分析的范畴，作为NLP的上游任务，其结果直接影响下游任务的效果。NER具有广泛的应用，是机器翻译、知识图谱、智能对话系统、句法分析任务、信息抽取等任务的基础。什么是“命名实体”？简单可以理解为具有特殊意义的名词，常见的如人名、地名、组织机构名、日期、时间、货币等一些指代性比较强的，区别于生活中的普通名词比如计算机、互联网、宇宙、天气等具有普适意义...

2022-04-16 22:34:36 1453

原创 Django项目Postgresql以及Elasticsearch的封装

在进行Django项目开发的过程中，Web API的开发是一个研发工程师必备的技能。本文主要介绍接口开发中，如何对数据库的连接访问，使用模块进行封装，用户可以通过调用封装好的接口，只需要传入sql语句，便可以获得查询结果。1.安装django进入创建的"django37"虚拟环境，即运行conda activate django372.安装django运行：pip install -i https://pypi.tuna.tsinghua.edu.cn/simpledjango==...

2021-02-21 17:19:14 408 4

原创大数据学习之windows下spark环境搭建

不少大数据开发的小伙伴们，在刚开始的学习过程中一定会被大数据环境的搭建干扰到，各种集群环境。笔者也是深有体会，尤其是电脑配置低，甚至安装虚拟机都吃力，对于屌丝们，使用的大部分是windows系统。因此，本期主要介绍windows下，spark环境的搭建和展示idea下的toy project——WordCount。首先安装jdk，但是oracle官方默认让用户下载最新版的jdk，如果想使用之前的版本，比如jdk1.8，则需要进行注册，才可以下载，但是我们如果不想注册的话，...

2020-08-22 11:48:59 578

原创 Elasticsearch学习分享（六）

本期学习ES DSL及其基本用法。什么是ES DSL呢？全称Elasticsearch Query DSL。DSL又是什么呢？DSL(Domain Specific Language)，英译中的结果就是，领域特定语言。DSL指的是专注于某个应用程序领域的计算机语言，又译作领域专用语言。不同于其他计算机语言，顾名思义，这种语言只用在某些特定的领域。ES DSL是专门属于ES的查询语言，elasticsearch提供标准Restful风格的查询DSL来定义查询。可以将查询DS...

2020-07-03 17:26:15 1970

原创 Elasticsearch学习分享（五）

本期来学习下比较有意思的内容——IK分词器。一说到分词，让我感到倍感亲切，想起了研究生阶段的课题——自然语言处理。作为AI的一个核心领域，分词任务算是一项重要而又比较基础的工作，是很多下游任务的基础。在NLP领域，有很多的软件可以使用，我所接触过的，比如DeepNLP、kcws、jieba、LTP、THULAC、NLPIR、SnowNLP、SpaCy、pyhanlp、FoolNLTK、pyltp、StanfordCoreNLP、ID-CNN-CWS、Genius、Fuda...

2020-07-03 16:57:29 281 1

转载 Python虚拟环境下遇到“无法绘图的问题”

在python虚拟环境下遇到，无法绘图的问题，可能是tc和tk目录没有找到，比如：通常有以下几种办法：

2020-06-21 19:24:13 455

原创 Windows下MySQL8.0下载安装

MySQL是计算机领域经常使用的关系数据库，本期介绍下windows下MySQL8.0的安装。首先，进入官网下载：下载完成后，双击安装文件，开始安装：接下来使用Workbench。界面工具可以很方便的操作数据库，这样这样便完成了MySQL的下载与安装全过程。...

2020-06-16 20:02:27 795

原创 Elasticsearch学习分享（四）

上篇学习了Kibana，本期深入学习ES，包括ES是如何存储数据，其数据结构又是怎样的，以及与传统数据库的关系。 ES有很多重要概念，包括如集群、节点、索引、文档、分片、映射等内容。相比于关系数据库中的数据库、表、行(记录)、属性(字段、特征)等核心概念，ES有索引(indices)、类型(types)、文档(Documents)、fields等内容。ES是面向文档的，下面是关系数据库与Elasticsearch客观的对应关系！Relational DB Elas...

2020-06-16 15:59:00 252

原创 Elasticsearch学习分享（三）

在上一篇博文讲了elasticsearch以及插件elasticsearch-head的安装，本期开始学习Kibana。先来了解下ELK。ELK是Elasticsearch、Logstash、Kibana三大开源框架首字母大写简称，市面上也称为Elastic Stack。其中Elasticsearch是一个基于Lucene、分布式、通过Restful方式进行交互的近实时搜索平台框架，相类似百度、谷歌这种大数据全文搜索引擎的场景都可以使用Elasticsearch作为底层支...

2020-06-15 18:30:23 289

原创 Elasticsearch 学习分享（二）

上一篇介绍了Elasticsearch的背景，接下来学习Elasticsearch的安装。在安装Elasticsearch之前，需要安装j并配置jdk环境，jdk版本不能低于jdk1.8。另一方面，需要注意Elasticsearch的版本要和与Java开发的核心jar包版本对应，jdk环境正常。1、下载elasticsearch包，下载网址https://www.elastic.co/cn/downloads/elasticsearch。本文以windows平台为例。...

2020-06-15 14:57:48 683

原创 Elasticsearch 研究分享（一）

Elasticsearch是一种分布式的全文搜索引擎，简称“es”，是一种非常强大的信息检索（Information Retrieval，IR）应用，广泛应用于大数据分析，其产生的初衷是为了解决大数据下，传统的SQL查询检索速度慢的问题。作为一个搜索服务器，凡是与“检索”有关的应用，都有elasticsearch的身影。比如，github项目检索、百度搜索、淘宝电商等等。在学习es之前，首先了解其背景也是非常有必要的。我们都知道Google是一家做搜索引擎起家的公司，其中......

2020-06-15 09:57:58 350

原创 NLP之分词技术理论

从事了两年多的NLP研究工作，平时忙于工作，难以静下心来写技术博客。由于疫情的原因，总算有太多的空闲时间来自由安排自己的学习生活，对落下的东西做点补偿吧。随着学习和工作的积累，打算从NLP的基础工作开始，包括分词、词性标注、命名实体识别、句法分析等，这些技术是NLP上层应用的基础，在工作中，发现很多从业人员缺少对这些工作的重视，尽管深度学习很火，如果对底层技术认识不够，很难做到对上...

2020-05-04 18:00:03 588

原创 DeepIn matplotlib可视化中文无法显示问题解决

在机器学习中，数据可视化分析是非常重要的一环，也是工程人士必须具备的技能。matplotlib是python语言中经常用到的可视化工具，但令人头疼的是，matplotlib在显示中文方面会遇到很多问题，这种问题在windows操作系统下很容易解决，相信不少伙伴很容易找到解决方案，但在linux下，比较麻烦，不同的发行版，解决方案也不同。博主在本期介绍，在deepin下，如何解决ma...

2020-02-11 00:11:56 535 1

原创 DeepIn OS部署图数据库neo4j

知识图谱是自然语言处理领域的一个重要研究方向，基于知识图谱的NLP技术能够使得很多AI产品更加的智能，如问答系统、聊天机器人、搜索引擎等。在知识图谱中，一个重要的过程就是知识存储。知识存储需要用到各种类型的数据库，常见的有关系数据库、图数据库等等。本文主要介绍DeepIn 操作系统下图数据库neo4j的环境部署。首先在下载neo4j之前，需要配置jdk，进入or...

2020-02-06 01:05:56 373

原创 DeepIn OS下的python虚拟环境安装

本文介绍两种python的虚拟环境使用方法，操作系统为DeepIn OS，类似于Ubuntu，是一款基于Debian的国产Linux操作系统。虚拟环境的好处在于不会破坏系统原有的生态环境，可以在这个虚拟环境中安装我们的项目所需要的包。举个例子，比如，在深度学习中，深度学习框架Tensorflow目前有1.x版本和2.0版本，但是如果没有虚拟环境，1.x的代码在2.0下运行就会出现问...

2020-01-31 12:40:39 860

转载 NLP中的知识图谱

1. 通俗易懂解释知识图谱（Knowledge Graph） </h1> <div class="clear"></div> <div class="postBody">完整机器学习实现代码GitHub欢迎转载，转载请注明出...

2019-10-07 18:15:16 2112

原创知识图谱与自然语言处理

最近，在学习AI领域中，非常前沿的一项技术——知识图谱。知识图谱和自然语言处理有着紧密的联系，都属于比较顶级的AI技术。在AI金字塔中处于认知层面。目前，人工智能在学习数据的内在表示，或者根据算法训练得到的模型来进行结果的预测和判别方面表现出了强大的能力，尤其是在感知层面上，比如目前的计算机视觉领域，对于很多人肉眼无法判别的事物，而模型却能作出高精度的识别，并且也有了非常多的工业级的...

2019-10-02 23:22:32 10961 1

原创自然语言处理之词性标注

词性标注作为NLP领域的一项基本任务，其与分词任务同等重要，是很多任务的基础，比如句法分析，命名实体识别等。命名实体识别在一定程度上也属于标注任务，不过，难度相比一般的词性标注而言，上升了不少。对于词性标注而言，不论是中文还是英文，其难点在于对于不同的语境，词性的多变化；另一方面，随着社会的发展，很多词都会潜移默化的产生额外的词性。相信这些现象，大家都有所感触，也经常遇到这些情况，...

2019-08-27 00:17:25 4547

原创自然语言处理之分词实战

分词作为NLP的一项基本任务，其算法和原理的相关研究，在之前的文章(https://blog.csdn.net/weixin_44526949/article/details/98063167)中已经做了基本介绍。目前，分词技术也非常的成熟，而且研究人员也开发了很多软件包，这些软件包在项目中的使用效果也非常的好。本期对于分词，进行一次实战练习，来加强对分词算法的理解，主要是一些软件...

2019-08-06 01:12:22 714

原创自然语言处理之分词技术

分词作为自然语言处理中的一项基本内容，是很多任务的基础，任何一门自然语言，分词难度参差不齐。比如中文分词与英文分词就存在很大的差别。在英文中，使用空格来进行分词，可以完成大部分的英文文本的分词任务；然而，对于中文而言，分词是一项极具挑战性的任务，没有特定的符号来标识某个词的开始或者结尾，而分词结果的好坏，对于语义理解的正确性有重要影响，比如下面这句话的分词结果：南京市长江大桥=...

2019-08-01 21:06:56 1799

原创自然语言处理的学习心得

自然语言处理(NLP)作为AI领域皇冠上的明珠，主要涵盖两个过程，自然语言理解和自然语言生成，用一个公式来表达，即可表示为：NLP=NLU+NLG。以机器翻译为例，对于两种语言之间的翻译，机器翻译模型充当一个中间角色，首先模型对其中一种语言进行处理的过程(这里就不谈那些深奥的编码过程和解码过程了)，包括转换成另一种语言之前所做的工作，称之为自然语言理解；通过语言理解过程，进一步生成...

2019-07-31 12:04:06 5748

原创 Linux虚拟机安装时遇到宿主机连接不上虚拟机的情况

linux学习的过程中，安装虚拟机之后，会使用windows上的远程终端工具来连接虚拟机，但是，当使用ifconfig命令来查看虚拟机的地址时，发现是本地的环路地址 127.0.0.1。可是在设置虚拟机的时候，明明设置的是Net模式，为什么会出现这种情况呢，如何解决呢？我也是摸索了好多，查了好多资料，终于解决了这个问题。首先，需要打开文件/etc/sysconfig/networ...

2019-07-13 00:34:56 1411

原创 Mac OS配置MySQL数据库

数据库对于开发人员的重要性，不言而喻。目前，随着大数据时代的到来，分布式数据库的使用愈加频繁，而传统的关系型数据库的使用情况有一定的下降。然而，关系型数据库在传统的软件开发领域，仍然备受青睐。关系型数据库目前使用最多的，毋容置疑，关系型数据库三巨头：Oracle，MySQL，Microsoft SqlServer。今天主要介绍的是三巨头之一的MySQL。之所以选择MySQL，是因为...

2019-06-28 23:44:46 488

原创个人博客搭建

本文以目前比较火热的博客框架Hexo为例，从5个方面来详细介绍其搭建的整个过程，这5个方面分别是：如何部署环境如何初始化个人博客如何写博客如何把个人博客部署到远端如何给个人博客换主题任何一个计算机科班出身的人，拥有自己的个人博客对于自身的发展都会有积极的影响。搭建个人博客也许会出现各种问题，所以也不需要担心，出现问题，通过各种方式解决就是了，大不了重新再来。本文是基于Mac环...

2019-04-16 17:46:37 14465 6

原创网络爬虫学习（十三）

前一节(https://blog.csdn.net/weixin_44526949/article/details/86745455)我们通过分析一个电影网站，对该网站的前100的电影的相关信息进行了爬取。这种爬取是基于我们可以直接从网页源代码中看到要爬取的内容，只要写好正则表达式进行提取就可以了。但是，有时一些网站，我们并不能从网页源代码中直接找到我们需要的内容，这是因为，这些内容可能是通过Aj...

2019-02-08 18:40:50 1151

原创网络爬虫学习（十二）

之前(https://blog.csdn.net/weixin_44526949/article/details/86738980)学习了Selenium模块的使用，这个模块，我们知道是用来驱动浏览器来完成一些操作，比如元素的交互，页面的跳转等等。那么从这篇之后，会进行一些实际的爬虫项目。首先，我们来完成一个电影网站的爬虫项目。这个电影网站是一个猫眼电影网站(https://maoyan.com)...

2019-02-03 11:12:07 571

原创网络爬虫学习（十一）

上一篇(https://blog.csdn.net/weixin_44526949/article/details/86735754)学习了pyquery，pyquery的使用类似于jquery，当我们在解析网页时，对网页中的内容，比如元素、元素标签、DOM操作等等，pyquery会非常的方便。本期来学习一个新的模块的使用方法，这个模块就是Selenium模块。该模块是一个自动化测试工具，在之前的...

2019-02-01 21:19:51 172

原创网络爬虫学习（十）

上一篇(https://blog.csdn.net/weixin_44526949/article/details/86713588)学习了BeautifulSoup模块，通过学习，我们可以体会到，在做爬虫时，虽然正则表达式非常的强大，但是，它的特征构造的确有点难度。而BeautifulSoup在很多情况下，可以实现和正则表达式同样的功能，而且，它比较简单，方法中带有很多的文本解析器，比如html...

2019-02-01 13:00:15 178

原创网络爬虫学习（九）

上一篇，学习了正则表达式(https://blog.csdn.net/weixin_44526949/article/details/86691142)，关于正则表达式的特征构造是一个难点，要想能够灵活的驾驭这种方法，需要不断地练习和反复理解。本期将来学习BeautifulSoup模块的使用。BeautifulSoup是一个解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网...

2019-01-31 17:15:44 177

原创网络爬虫学习（八）

本期来学习下正则表达式，之前学习了requests模块(https://blog.csdn.net/weixin_44526949/article/details/86684091)，requests模块相比urllib模块，在很多方面都显得非常简洁，可以说是urllib模块的一个升华。那么什么是正则表达式呢？简单来说，正则表达式是对字符串操作的一种逻辑公式，就是事先定义好的一些特定字符、及这些特...

2019-01-30 00:18:40 163

原创网络爬虫学习（七）

之前学习了urllib库的使用(https://blog.csdn.net/weixin_44526949/article/details/86677499)，requests库是一个相比urllib库而言，更加高效的库。它使用python语言开发，是基于urllib的，是一个采用Apache2 Licensed开源协议的HTTP库。它相比urllib更加方便，可以提高我们的工作效率，完全能够满足...

2019-01-29 11:47:01 148

原创网络爬虫学习（六）

之前(https://blog.csdn.net/weixin_44526949/article/details/86672985)学习了整个爬虫的工作原理，虽然原理比较简单，但是数据的处理却是比较麻烦和繁琐的，能够灵活的使用工具库可以提高我们的工作效率，接下来来学习一些库。首先来学习Urllib库。urllib库是一个python内置的http请求库。它包含4个模块，分别是urllib.re...

2019-01-28 23:10:37 212

原创网络爬虫学习（五）

前面(https://blog.csdn.net/weixin_44526949/article/details/86671897)已经知道了网络爬虫的基本流程，那么这里有两个词，Request和Response。那么这两个又是什么东东呢？简单来说，当我们在我们的浏览器中输入我们想要访问的资源的URL时，比如https://translate.google.cn/时，点击“回车键”，此时浏览器便向...

2019-01-28 14:43:57 175

原创网络爬虫学习（四）

之前对有关网络爬虫的一些工具进行了安装，那么究竟什么是爬虫呢？我们经常会看到这么一幅图。简单来说，通常把万维网比作一张大网，而蜘蛛呢，就是我们的爬虫程序，网上的各个点就是各个网站，网络爬虫简单来说，就是按照事先定义好的规则，来自动的采集这些网站信息的程序，由于带有“智能”的特点，“网络爬虫”又称“网络机器人”。那么爬虫的过程一般分为数据采集，数据处理，和数据存储这三个部分。爬虫技术的种类也...

2019-01-28 10:19:55 313

原创网络爬虫学习（三）

在上一篇中（https://blog.csdn.net/weixin_44526949/article/details/86667777）已经安装了MySQL数据库，以及相关的设置，注意，如果要进行远程访问MySQL数据库时，需要修改配置文件/etc/mysql/mysql.conf.d/mysqld.cnf，将下面的行注释掉即可。然后再重新启动mysql服务，便可以远程访问了。接下来...

2019-01-28 00:41:45 163

原创网络爬虫学习（二）

在网络爬虫学习（一）（https://blog.csdn.net/weixin_44526949/article/details/86666709）已经安装了MongoDB和Redis数据库，接下来需要安装一种非常重要的关系型数据库----MySQL。MySQL也是在进行Web开发过程中，使用比较多的数据库，主要存储结构化数据。在linux Ubuntu下安装比较简单。直接在终端输入对应的安装语句...

2019-01-27 19:07:04 148

原创网络爬虫学习（一）

学习网络爬虫，有很多种编程语言可以选择，但是，python是公认的最好的进行爬虫的编程语言，因此，本系列使用python语言来进行爬虫工作。由于python3版本是python的未来版本，所以，选择python3来进行爬虫开发，是最好的选择。接下来所要完成的首要工作便是网络爬虫环境的搭建。鉴于Linux环境下，搭建环境的方便，所以，以linux系统来作为开发平台。作为数据分析过程中非常重要的一个过...

2019-01-27 17:27:33 489

空空如也

空空如也