自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 自然语言处理-情感分析

情感分析(Sentiment Analysis)又称为意见挖据、倾向性分析等,对情感倾向性(喜、怒、哀、乐和批评、赞扬等)的文本进行分析、处理、归钠和推理,生成评论摘要,抽取情感标签等。自2000年年初以来,情感分析成为自然语言处理中最活跃的研究领城之一。情感评论的文本往往具有以下特点。(1)文本短,很多评论就是一句话。(2)情感倾向明显,如“好”“可以”“漂亮”。(3)语言不规范,会出现网路用同、符号、数字等,如“666“神器”。(4)重复性大,一句话中出现多次词语重复,如“很好,很好,很好”

2024-02-29 20:58:34 1121

原创 自然语言处理-信息提取

目前常用的模型成方法包括隐马尔可大模型、语言模型、最大熵模型、支特向量机、决策树和条件随机场等,其中,条件随机场(Conditional Random Field,CRP)是由McCallum等人在2003年发明,与基于字的汉语分词方法的原理一样,就是把命名实体识别过程看作个序列标注问题,将给定文本首先进行分词处理,然后对人名、简单地名和简单的组织机构名进行识别,最后识别复合地名和复合组织机构名。已知4匹马分别是{a,b,c,d},其获胜概率分别为{1/2,1/4,1/8,1/8}。掌握正则表达式的应用;

2024-02-29 20:55:45 980

原创 自然语言处理-评价指标

信息分类的评价指标一般有以下几个:混淆矩阵、准确率、精准率、召回率、F1 Score值、ROC曲线、AUC面积和分类评估报告。重点介绍了Sklearn的分类评价指标的函数和方法。讲解了中文分词的指标以及未登录词和登录词召回率。

2024-02-21 10:44:53 681

原创 自然语言处理-文本聚类

文本聚类是指将相似度较大的文档分成一类,通过将自然语言文字信息转换成数学信息,以高维空间点的形式展现出来,通过计算点的距离远近进行聚类,簇内点的距离尽量近,但簇与簇之间的点要尽量远。实验介绍了K-Means聚类算法的原理和步骤,主成分分析方法用于数据降维,并介绍了K-Means的ARI和轮廓系数两个评估指标。最后给出英文文本聚类实例。

2024-02-21 10:39:33 1145

原创 自然语言处理-文本分类

本实验重点介绍了朴素贝叶斯和支持向量机两种机器学习方法。关于朴素贝叶斯,介绍了贝叶斯定理、三种贝叶斯分类方法,使用朴素贝叶斯进行新闻分类。关于支持向量机,介绍支持向量机的原理,了解三种核函数一线性核函数、多项式核函数和高斯核函数。使用支持向量机对鸢尾花的分类。最后介绍了垃圾邮件的文本分类的两种实现方式。

2024-02-21 10:35:57 764

原创 自然语言处理-中文分词

语料是指一批文本(句子、文章摘要、段落或者整篇文章)的集合。由于文本处理的最小单位是词语,需要对语料进行分词处理。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。在英文中,单词之间是以空格作为自然分界符,而中文只有明显的逗号,句号等分界符进行句段划界,词与词之间没有明显的界限标志,因此分词是汉语文本分析处理中的首要问题,也是机器翻译、语音合成、自动分类、自动摘要、自动校对等中文信息处理的基础。当基于jieba词库的分词结果不符合需求时,可以通过自定义的词典实现。自定义具有如下两种方式。

2023-12-26 08:55:05 1223

原创 自然语言处理-特征工程

特征是指区分事物的属性。特征工程是指通过规范化、标准化、鲁棒化和正则化等方法将数据转换成符合算法要求的数据。重点介绍词袋模型和词向量,特别是独热编码和TF-IDF。

2023-12-22 14:54:07 896

原创 自然语言处理-语料清洗

语料清洗是自然语言处理的第一步,对最终结果起到决定性作用。要实验重点讲解了语料的清洗策略,填充缺失值、消除异常值和平滑噪声数据等清洗方法。介绍数据替换、数据映射、数据合并和数据补充等数据转换功能,missingno库用于数据分析前的数据检查,查看数据集完整性。词云用于可视化地显示数据相关信息。

2023-12-22 09:33:53 1489

原创 Sklearn和NLTK

Sklearn(Scikit-learn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,具有分类、回归、聚类、降维、模型选择、预处理六大模块。(1)分类:识别某个对象属于哪个类别,常用的算法有SVM(支持向量机)、KNN(最近邻)、Random Forest(随机森林)。(2)回归:预测与对象相关联的连续值属性,常见的算法有SVR(支持向量机)、Ridge Regression(岭回归)。(3)聚类:将相似对象自动归类分组,常用的算法有K-Means(K均值聚类算法)。

2023-12-22 09:19:01 795

原创 Python数据科学

本实验重点介绍了数据科学模块NumPy和SciPy,数据可视化Matplotlib和Seaborn,以及统计与分析模块Pandas。其中,NumPy负责数值计算、矩阵操作等;Matplotlib和Seaborn负责数据可视化;Pandas用于数据清洗等。SciPy负责常见的数学算法、插值、拟合等。

2023-12-21 10:22:19 925

原创 Python流程控制

1 实验介绍1.1 关于本实验本实验主要介绍三种基本结构:(1)顺序结构是程序按照代码出现的先后次序执行。(2)选择结构是用来实现逻辑判断功能的重要手段。(3)循环结构是指程序有规律地反复执行某一操作块的现象,介绍了Python语言的while循环和for循环,while循环常用于多次重复运算,而for循环用于遍历序列型数据,最后,介绍了break、continue和pass等辅助语句。1.2 实验目的掌握程序的三种基本结构;掌握顺序结构程序设计;熟练掌握Python语言中输入输出格式的规则和

2023-12-21 10:09:33 864

原创 Python函数

复杂的问题通常采用“分而治之”的思想解决,把大任务分解为多个小的任务,解决每个小的容易的子任务,从而解决较大的复杂任务。主要介绍函数的声明和调用、返回值及函数的四种参数,以及两类特殊的函数等相关知识。

2023-12-20 11:56:35 837

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除