有猫腻妖
网络爬虫中级工程师,主要研究方向网络爬虫,数据分析,数据挖掘,数据可视化,物联网应用,后端开发,人工智能
擅长python语言,精通java,Android,C#,C,JavaScript
欢迎各位大佬友好交流,大家相互进步
展开
-
情感分析实战(英文)-数据预处理篇
以上是一般的英文文本数据清洗步骤,具体的清洗过程取决于数据集本身的特点和实际需求。需要注意的是,文本分析是一个复杂的任务,并且只有在为文本建立正确的清洗步骤并清洗好数据后才能得到准确的分析结果。这里采用的是transformers来进行情感分类任务:https://github.com/huggingface/transformers。再替换表情包,在数据中,会有很多表情包,有时候这些表情包容易影响文本的判断,只好去掉。原创 2023-06-12 16:45:17 · 721 阅读 · 0 评论 -
情感分析实战(中文)-LDA主题建模分析
但值得注意的是,选择最佳主题数时应该基于完整的数据集进行评估,并在保证较小的困惑度和较高的一致性的同时,尽量减小主题数,以获取更好的可解释性和模型准确性。当我们使用LDA主题模型对文本进行聚类和主题建模时,得到的每个主题代表了一种语义主题或话题,并且包含了一组与该主题相关的单词,这些单词可以解释并描述该主题的含义。在实践中,对于LDA主题模型的选择,我们通常会使用不同的主题数,计算困惑度和一致性,并选择困惑度最小、一致性最高的主题数作为最佳模型参数,以获得更好的聚类效果和模型拟合度。原创 2023-06-12 16:49:04 · 1029 阅读 · 0 评论 -
情感分析实战(中文)-共现语义篇
在计算共现矩阵时,通常先定义一个大小为N的词表,将文本中出现的所有单词映射到词表中的位置,然后基于这个词表计算共现矩阵。遍历文本:然后遍历文本中的每一个子串,并将其中的单词对应的位置的元素加1。定义词表和矩阵:首先定义一个大小为N的词表,其中每个单词对应一个位置,然后定义一个大小为N×N的共现矩阵M,其中第i行第j列的元素表示第i个单词与第j个单词共同出现的次数。在中文NLP文本分析中,共现语义网络是一种常用的文本分析框架,它的目的是在文本中寻找单词的相互关联性,生成一个共同出现单词的图形网络。原创 2023-06-12 16:51:15 · 1042 阅读 · 0 评论 -
情感分析实战(中文)-聚类篇
聚类的结果呈现就如图所示,一般如果没有class那一列的时候,需要对该文本进行划分的时候,通过聚类就可以帮助我们有效的对文本进行划分类别,接着根据这些类别进行下一步分析内容,通过这些类别划分,我们可以去分析某一类,情感占比如何,用户反馈如何,他们发帖的频率等等做到一些我们需要的分析内容。PCA降维是一种常用的高维数据处理方法,对于聚类分析中的高维数据的处理,采用PCA降维可以更好地结构化和简化高维度的数据信息,获得更高效、更准确的聚类结果。轮廓系数是一种用于评估聚类质量的指标,用于衡量聚类后的聚类效果。原创 2023-06-12 16:52:55 · 1469 阅读 · 0 评论 -
情感分析实战(中文)-数据获取
如果是获取多页的内容的话,那么写一个for循环即可,然后把上面提到数字的那个地方进行修改就好了,这样就获取多页内容,具体的尾页的话,需要大家自己去该网站点击末尾然后查看信息即可,再把相应的数字进行修改。以上便是爬取马蜂窝的全部教程,这里再次申明一下,获取该网站的数据仅用于学术研究,不造成任何的商业行为,这里望各位注意素质,切勿对该网站的服务器造成攻击或者商业用途。数据是可以成功获取到了,只是这些数据有些乱接下来我们就要开始整理我们的数据内容了,让这些数据转换,方便我们后续的获取。这里采用的是正则公式。原创 2023-06-12 16:57:25 · 1392 阅读 · 0 评论 -
情感分析实战(中文)-数据预处理篇
这里采用的是transformers来进行情感分类任务:https://github.com/huggingface/transformers。以上几个步骤通常是中文文本处理的主要流程,不同的任务可能会侧重其中的某些步骤。分别对应的是用户id,评分,内容,创建时间,分类。接着在上面数据处理完成之后,我们开始情感分类。原创 2023-06-12 16:58:59 · 1903 阅读 · 0 评论