![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
【算法】NLP方向
文章平均质量分 92
python文本分析
越吃越胖
学
展开
-
第一章 大模型简介
数据处理阶段对原始数据进行清洗和处理。将处理后的数据转化为检索模型可以使用的格式。将处理后的数据存储在对应的数据库中。检索阶段将用户的问题输入到检索系统中,从数据库中检索相关信息。增强阶段对检索到的信息进行处理和增强,以便生成模型可以更好地理解和使用。生成阶段将增强后的信息输入到生成模型中,生成模型根据这些信息生成答案。特征比较RAG微调知识更新直接更新检索知识库,无需重新训练。信息更新成本低,适合动态变化的数据。通常需要重新训练来保持知识和数据的更新。更新成本高,适合静态数据。原创 2024-04-17 22:35:13 · 732 阅读 · 0 评论 -
NLP入门_Datawhale
1.背景参加了Datawhale NLP入门学习,天池链接:https://tianchi.aliyun.com/competition/entrance/531810/information2.解题思路赛题思路分析:赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的,不能直接使用中文分词等操作,这个是赛题的难点。因此本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取和分类模型两个部分。为了减低原创 2020-07-25 23:02:09 · 256 阅读 · 0 评论 -
Python_文本分析_TF-IDF
1. TF-IDF介绍2. 计算逻辑我这里使用了一个简单的数据集帮助大家理解TF-IDF的计算(如下)。数据集为自定义的corpus,一共有四段文本,每一段都比较少来帮助理解计算逻辑。import numpy as npimport pandas as pd from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorize原创 2020-06-07 23:28:03 · 984 阅读 · 0 评论 -
Python_文本分析_困惑度计算和一致性检验
在做LDA的过程中比较比较难的问题就是主题数的确定,下面介绍困惑度、一致性这两种方法的实现。其中的一些LDA的参数需要结合自己的实际进行设定直接计算出的log_perplexity是负值,是困惑度经过对数去相反数得到的。import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jiebaimport matplotlib.pyplot as pltimport jieba.posseg原创 2020-06-02 17:02:52 · 16431 阅读 · 26 评论 -
Python_文本分析_困惑度计算
这篇博文介绍一个困惑度的神仙方法,困惑度是用来确定最佳主题数一种方式。本代码使用4折交叉验证LDA里面有两个参数需要根据自己的数据等进行设定import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jiebaimport matplotlib.pyplot as pltimport jieba.posseg as jp, jiebaimport gensimfrom snownlp原创 2020-06-02 16:52:00 · 6326 阅读 · 2 评论 -
Python_文本分析_词频_TFIDF统计
import numpy as npimport pandas as pd from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer# Load datacomment1 = pd.read_csv(r"good_1.csv", header = 0, index_col = False, engine='pyt原创 2020-06-01 23:44:06 · 2862 阅读 · 0 评论 -
Python_文本分析_分词
文本分词的介绍网上已经很全面了,这里主要介绍一种文本分词、去停用词的具体实现,停用词表是对百度、哈工大等常见停用词表融合后去重import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jieba# 停用词路径def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', enc原创 2020-05-29 11:21:29 · 1930 阅读 · 3 评论 -
Python_文本分析入门_SnowNLP(1)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己(不是本人)实现的,并且自带了一些训练好的字典。1.简单的文本分析尝试from snownlp import SnowNLPs = ...原创 2019-05-22 15:16:21 · 24718 阅读 · 0 评论