基于《笑傲江湖》的词云分析

该篇文章介绍了如何使用R语言中的各种包(如jiebaRD,jiebaR等)对文本数据进行预处理,包括专用词提取、停用词过滤和词频统计。最后,通过词云图展示了《笑傲江湖》中角色的高频词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#加载所需包
library("jiebaRD")
library("jiebaR")
library('stringi')
library('pbapply')
library('cidian')
library(wordcloud2)

data<-readLines(con <- file("123.txt", encoding = "UTF-8"))
mixseg <- worker()

#专用词
dic <- c('令狐冲',
         '任盈盈',
         '岳灵珊',
         '林平之',
         '岳不群',
         '左冷禅',
         '任我行',
         '辟邪剑谱',
         '葵花宝典',
         '日月神教',
         '华山派',
         '大师兄')
new_user_word(mixseg, dic)
seg <- segment(data, mixseg)
seg

#停用词
stopwords <- readLines('stop_word.txt',encoding = 'UTF-8', warn = FALSE)
seg <- filter_segment(seg, stopwords)

wordfreqs <- jiebaR::freq(seg) # 统计词频,明确指定使用jiebaR包中的freq函数,而不是其他可能存在同名函数的包中的函数。
wordfreqs <- dplyr::arrange(wordfreqs,-freq) # 将词频由高到低展示
head(wordfreqs,200) # 看看前20个词频是什么!


#词云图
colorVec = rep(c('red', 'skyblue'), length.out=nrow(wordfreqs))
my_graph <- wordcloud2(
  data=wordfreqs,color = colorVec, 
  fontWeight = "bold",shape = "star",
  size=0.8)
my_graph

wordcloud2(wordfreqs,backgroundColor = 'black',
           color = ifelse(wordfreqs[, 2] > 1100,  '#f02222', '#c09292'))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值