自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xz_4321的博客

人生不是百米赛跑,而是马拉松~

  • 博客(2)
  • 收藏
  • 关注

原创 R语言编程实现批量化处理非结构化的QQ聊天记录(优化版)

昨天天朗气清,惠风和畅,突然跟群友聊天,说到QQ群聊天记录的事,正好手边有时间,立刻导出QQ的群消息聊天记录,打算分析一下,然并卵……腾讯对QQ聊天记录不知道是按啥规则保存,反正就是标准的非格式化数据,根本不能直接分析,在前期还得做很多处理,那么问题来了,第一:怎么弄成结构化的数据呢?这句就是废话。好吧。的确是。。。第二:那就这么弄吧?那就往下看吧~主要思路分析下面就是主要思路:  首先观察数据,这

2016-10-14 11:00:33 3014 5

原创 R语言实现文字时间堆叠图(主要用于文本挖掘)

文字时间堆叠图是自己乱瞎叫的名字,我也不知道这个图叫啥,但是它相较于词云图来说,优点是在于以时间为横轴,中文词频频数为纵轴的一种呈现形式,这样可以看出在某某时间某些词的关注度较高,同时可以跟其他时间段的作比较,适合由于新闻评论数据等有时间趋势的文本可视化中,此处使用ggplot2包实现可视化。  话不多说,直接上思路及代码。主要思路:一般文本分词主要为4步: 第一步:就是一些正则匹配去掉脏字符,符号

2016-10-10 18:35:58 1882 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除