![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp入门
文章平均质量分 68
这个作者很懒,什么都没留下…
展开
-
nlp入门之隐马尔科夫模型
如图所示,天气有晴天、多云、雷雨三种状态,三种状态之间的变换是随机的,并且三种之间的状态概率是固定的,并且昨天的天气只能影响今天的天气,对明天的天气无法产生影响,就是一个马尔科夫模型。2.2 举例:在第一节的例子中,如果是在热带雨林中,看不见天所以无法直接观测到天气的情况,但是可以通过观察海藻的生长状态来判断当前的天气,这就是个隐马尔科夫模型。2.1 在马尔科夫模型中,无法直观的观察到状态,仅仅可以观测到表象,则称之为隐马尔科夫模型。其中π为初始状态,A为状态转移概率矩阵,B为生成观测状态概率矩阵。原创 2023-08-18 17:02:30 · 132 阅读 · 1 评论 -
nlp入门之新闻分类实验
TF = 某词在文章中出现的次数/该文章中出现最多词出现的次数IDF = log(文章总数/包含该词的文章数+1)原创 2023-08-18 16:56:40 · 136 阅读 · 1 评论 -
nlp入门之基于贝叶斯算法的拼写错误检测器
优先考虑原单词a是否在语料库中,如果存在就返回原单词,不存在就考虑编辑距离为1的单词,返回使用频率最高的那个如果编辑距离为1的单词也不在语料库中,那么就考虑编辑距离为2的单词,同样,如果编辑距离为2的单词都不在语料库中,那么这可能是一个新的单词,直接返回单词本身。单词字典每个单词词频默认为1,因为如果单词字典默认值为为0,那么出现了语料库中没有的单词,就会默认概率为0,导致新的单词无法被识别。单词a经过n次修改可以得到新的单词b,那我们叫b为a的编辑距离为1的单词,下面函数就返回编辑距离为1的单词。原创 2023-08-18 16:52:51 · 77 阅读 · 1 评论 -
nlp入门之商品信息可视化与文本分析实战
数据来源:麦卡里价格建议挑战如果不会使用魔法可以使用百度云链接:https://pan.baidu.com/s/1EM2MwjX4bLlypLSIJYZqeg?pwd=xqs0提取码:xqs0。原创 2023-08-18 16:49:06 · 237 阅读 · 1 评论 -
nlp入门之jieba分词器
jieba分词器提供了中文的分词工具,并且有精确模式和全模式两种模式,默认是精确模式。说到中文分词,就不得不提jieba分词器,虽然已经很久没有更新,但是依然很好用。利用xxx的发言稿作为语料,进行分词并且统计频率最后画在一张图上体现出来关键字。默认词典中不识别乾清宫和黄琉璃瓦,现在添加词典加入这两个词。jieba分词器安装十分方便,输入命令就可安装成功。jieba还可以添加自定义的词典,使分词更精准。根据词典中词语的频率,可以提取关键词。其中原图是一张纯色的中国地图。jieba也可以标注词性。原创 2023-08-18 16:42:17 · 172 阅读 · 1 评论 -
nlp入门之spacy工具包的使用
spacy工具包宣称可以做到nltk做到的所有事情,并且速度更快,还更好的适配深度学习,最关键的是提供了中文语言模型!由于某些不可说的原因,使用官网的安装方式很难成功推荐直接使用conda内部的整合包。根据世界反恐怖组织官网上下载的恐怖袭击事件,来分析特定的组织在特定的地点作案的次数。可以自行选择安装需要的模型,然后使用命令加载,我这里使用英文模型做示范。如果不成功可以网上寻找spacy的离线安装包,可以参考这篇文章。spacy和nltk一样提供了分析词性的功能。spacy也提供了命名体识别功能。原创 2023-08-18 16:38:04 · 304 阅读 · 1 评论 -
nlp入门之nltk
网络上爬取的语料中有可能有很多特殊符号,对nlp造成了很大的影响,所以需要一些方法来进行数据清理,利用nltk可以很好的办到这些。我定义了一个MY_NP的词并且用正则表达式写出这个块的句子词性是什么样的,nltk可以找出语料库中符合的块。安装nltk,但是仅仅是安装了nltk的框架,内部的软件包需要使用命令。nltk可以进行一些简单的文本操作,如统计词的个数,查找词的位置等。nltk自带了一些停用词表,输入命令就可以查看支持语言的停用词表。nltk还可以将每个词的词性标注出来,词性表如下。原创 2023-08-18 16:34:11 · 216 阅读 · 1 评论 -
nlp入门之正则表达式
两个函数都是查找是否有符合正则表达式的字串,不同在于match函数是字串必须从字符串第一个开始就匹配,如果没有则返回none,search函数是从原字符串任意位置开始匹配都可以。2.1 将符合正则表达式的字符串匹配式传入re模块的compile函数,注意字符串前加r表示不使用转义字符,或者每个/写作//。两个函数都是替换字符字串的功能,第二个函数会返回一个元组,元组中第二个参数表示替换了几处。2.2 match函数和serch函数。通过匹配的正则表达式为依据进行切片。2.3 sub和subn函数。原创 2023-08-18 16:28:12 · 85 阅读 · 1 评论 -
nlp入门之字符串处理
1.5 isalpha函数和isdigit函数:判断字符串是否全为字母和判断字符串是否全为数字。1.2 rstrip函数和lstrip函数:去掉右边特定字符和去掉左边特定字符。1.3 replace函数:替换特定字符字串,可以传入参数确定替换字串的个数。1.4 find函数:查找子串返回字串的下标位置,如果没有返回-1。1.7 join函数:将字串列表按照特定字符间隔合并起来。1.6 split函数:按照字串分割字符串。1.1 strip函数:去掉首尾特定字符。原创 2023-08-18 16:25:05 · 47 阅读 · 1 评论