- 博客(6)
- 收藏
- 关注
原创 NLTK与jieba的方式分词、去除停用词
word_list = ana.extract_tags(str(w), topK=10000, withWeight=False) # 去除停用词+词频分析。ana.set_stop_words('C:\job\AI数据集平台工具\数据\逻辑回归停用词.txt') # 输入停用词。nltk 用来处理英文分词、去除停用词,jieba用来处理中文分词、去除停用词。# 获取英文停用词列表,也可以根据需要使用其他语言的停用词列表。# 下载nltk的停用词列表和punkt分词模型。# 输出处理后的文本。
2024-06-19 10:18:49 382
原创 使用逻辑回归算法进行分类预测
wordmtx = vectorizer.fit_transform(text_list4) # fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式。random_state:随机数种子(该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数),要设置为0或者不设置默认none则。其中(0, 1)0代表第一行文本,1表示编号为1的词,0.6167287759733318表示其权重。调用fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。
2024-06-18 11:02:17 284
原创 DFA算法过滤敏感词(直拿直用)
output = dfa.outputNoSensitiveness('C:\job\AI数据集平台工具\数据\\fliter_sensitiveness.txt', later_filter)data = ['flink', 'spark', 'hive', 'FLINK', 'SPARK', 'HIVE', '实时', '离线']# dfa.parse('C:\job\AI数据集平台工具\数据\sensitive_words.txt')# 当字符不在关键词列表中,添加原字符到结果中,并结束当前循环。
2024-06-14 14:46:10 1513
原创 word2vec简单入门使用、总结
这也是为什么ELMO,GPT,bert问世之后word2vec就不再有以前的光环了,因为ELMO,GPT,bert都是用的动态词向量表示,可以很好的表示上下文语义。word2vec最大的缺陷:由于它是静态词向量表示导致不能表示一词多义的情况,举个例子“苹果”一词,在果蔬的句子中表示的就是水果的含义,Skip-Gram:给定一个词,预测其周围的上下文词汇,侧重于词汇的扩散语义。但是word2vec的静态词向量表示只能表示同一种形式,不能很好的表示上下文语义,(2) size:指特征向量的维度,默认为100;
2024-06-13 09:45:05 621
原创 使用MinHash结合MinHashLSH进行文本相似度比对
minHash只是计算出那些集合与目标集合满足设置的相似度阈值,如需计算具体的相似度为多少,还需使用jaccard方式(minhash的jaccard相似度)LSH:局部敏感哈希,用于判断大量集合间的相似度,当集合数量很多的时候使用,即删选出那些集合与目标集合相似度高,剔除那些相似度低的,目标为过滤集合。# 以下为minhash方式的jaccard相似度,设置num_perm越大,越接近实际的jaccard相似度(actual_xiangsidu)minhash:用来计算两个大数据量的集合内容的相似度。
2024-06-11 15:49:02 897 1
原创 TF-IDF结合余弦相似度进行文本相似度对比
如果一个词在文档中出现了很多次,但是这个词在其它文档中出现的次数很少,则这个词对这篇文档很重要。因为每个数据中正序排序排在倒数第一位的是当前文档自身的余弦相似度(为1),并不能说明哪个文档和它本身相似度最高,所以需要取倒数第二位。[:, -2],表示截取倒数第二个元素,在此例中每个数组的倒数第二个元素分别为1,0,3,1。特征提取的方式:TF-IDF(词频-逆文档频率)和基于词袋的方法 (Bag of Words)余弦相似度的值范围从 -1 到 1。"""基于特征提取的文本查重"""
2024-06-11 15:32:42 405
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人