Python自然语言处理
文章平均质量分 95
Chxxxhu
这个作者很懒,什么都没留下…
展开
-
自然语言处理-情感分析
情感分析(Sentiment Analysis)又称为意见挖据、倾向性分析等,对情感倾向性(喜、怒、哀、乐和批评、赞扬等)的文本进行分析、处理、归钠和推理,生成评论摘要,抽取情感标签等。自2000年年初以来,情感分析成为自然语言处理中最活跃的研究领城之一。情感评论的文本往往具有以下特点。(1)文本短,很多评论就是一句话。(2)情感倾向明显,如“好”“可以”“漂亮”。(3)语言不规范,会出现网路用同、符号、数字等,如“666“神器”。(4)重复性大,一句话中出现多次词语重复,如“很好,很好,很好”原创 2024-02-29 20:58:34 · 1205 阅读 · 0 评论 -
自然语言处理-信息提取
目前常用的模型成方法包括隐马尔可大模型、语言模型、最大熵模型、支特向量机、决策树和条件随机场等,其中,条件随机场(Conditional Random Field,CRP)是由McCallum等人在2003年发明,与基于字的汉语分词方法的原理一样,就是把命名实体识别过程看作个序列标注问题,将给定文本首先进行分词处理,然后对人名、简单地名和简单的组织机构名进行识别,最后识别复合地名和复合组织机构名。已知4匹马分别是{a,b,c,d},其获胜概率分别为{1/2,1/4,1/8,1/8}。掌握正则表达式的应用;原创 2024-02-29 20:55:45 · 1065 阅读 · 0 评论 -
自然语言处理-评价指标
信息分类的评价指标一般有以下几个:混淆矩阵、准确率、精准率、召回率、F1 Score值、ROC曲线、AUC面积和分类评估报告。重点介绍了Sklearn的分类评价指标的函数和方法。讲解了中文分词的指标以及未登录词和登录词召回率。原创 2024-02-21 10:44:53 · 733 阅读 · 0 评论 -
自然语言处理-文本聚类
文本聚类是指将相似度较大的文档分成一类,通过将自然语言文字信息转换成数学信息,以高维空间点的形式展现出来,通过计算点的距离远近进行聚类,簇内点的距离尽量近,但簇与簇之间的点要尽量远。实验介绍了K-Means聚类算法的原理和步骤,主成分分析方法用于数据降维,并介绍了K-Means的ARI和轮廓系数两个评估指标。最后给出英文文本聚类实例。原创 2024-02-21 10:39:33 · 1198 阅读 · 0 评论 -
自然语言处理-中文分词
语料是指一批文本(句子、文章摘要、段落或者整篇文章)的集合。由于文本处理的最小单位是词语,需要对语料进行分词处理。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。在英文中,单词之间是以空格作为自然分界符,而中文只有明显的逗号,句号等分界符进行句段划界,词与词之间没有明显的界限标志,因此分词是汉语文本分析处理中的首要问题,也是机器翻译、语音合成、自动分类、自动摘要、自动校对等中文信息处理的基础。当基于jieba词库的分词结果不符合需求时,可以通过自定义的词典实现。自定义具有如下两种方式。原创 2023-12-26 08:55:05 · 1317 阅读 · 0 评论 -
Sklearn和NLTK
Sklearn(Scikit-learn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,具有分类、回归、聚类、降维、模型选择、预处理六大模块。(1)分类:识别某个对象属于哪个类别,常用的算法有SVM(支持向量机)、KNN(最近邻)、Random Forest(随机森林)。(2)回归:预测与对象相关联的连续值属性,常见的算法有SVR(支持向量机)、Ridge Regression(岭回归)。(3)聚类:将相似对象自动归类分组,常用的算法有K-Means(K均值聚类算法)。原创 2023-12-22 09:19:01 · 831 阅读 · 0 评论 -
Python数据科学
本实验重点介绍了数据科学模块NumPy和SciPy,数据可视化Matplotlib和Seaborn,以及统计与分析模块Pandas。其中,NumPy负责数值计算、矩阵操作等;Matplotlib和Seaborn负责数据可视化;Pandas用于数据清洗等。SciPy负责常见的数学算法、插值、拟合等。原创 2023-12-21 10:22:19 · 998 阅读 · 0 评论 -
Python流程控制
1 实验介绍1.1 关于本实验本实验主要介绍三种基本结构:(1)顺序结构是程序按照代码出现的先后次序执行。(2)选择结构是用来实现逻辑判断功能的重要手段。(3)循环结构是指程序有规律地反复执行某一操作块的现象,介绍了Python语言的while循环和for循环,while循环常用于多次重复运算,而for循环用于遍历序列型数据,最后,介绍了break、continue和pass等辅助语句。1.2 实验目的掌握程序的三种基本结构;掌握顺序结构程序设计;熟练掌握Python语言中输入输出格式的规则和原创 2023-12-21 10:09:33 · 926 阅读 · 0 评论 -
Python函数
复杂的问题通常采用“分而治之”的思想解决,把大任务分解为多个小的任务,解决每个小的容易的子任务,从而解决较大的复杂任务。主要介绍函数的声明和调用、返回值及函数的四种参数,以及两类特殊的函数等相关知识。原创 2023-12-20 11:56:35 · 856 阅读 · 0 评论