数据挖掘与分析——微博评论情感分析

数据例样

label,review
1,更博了,爆照了,帅的呀,就是越来越爱你!生快傻缺[爱你][爱你][爱你]
1,@张晓鹏jonathan 土耳其的事要认真对待[哈哈],否则直接开除。@丁丁看世界 很是细心,酒店都全部OK啦。
1,姑娘都羡慕你呢…还有招财猫高兴……//@爱在蔓延-JC:[哈哈]小学徒一枚,等着明天见您呢//@李欣芸SharonLee:大佬范儿[书呆子]
1,美~~~~~[爱你]
1,梦想有多大,舞台就有多大![鼓掌]
1,[花心][鼓掌]//@小懒猫Melody2011: [春暖花开]
1,某问答社区上收到一大学生发给我的私信:“偶喜欢阿姨!偶是阿姨控!”我回他:“阿姨稀饭小盆友!偶是小盆友控!” [哈哈]
1,吃货们无不啧啧称奇,好不喜欢!PS:写错一个字![哈哈]@森林小天使-波琪 @SEVEN厦门摄影师 @日月星辰-心在路上 @每种型号生两胎 @志远天下行 @监控防盗安装XM @创意美食simon哥 @漫游者-强子 @陈小kitty猫@游子的歌@solo在厦门
1,"#Sweet Morning#From now on,love yourself,enjoy living then smile.从现在开始,爱自己,享受生活并且微笑。[呵呵] [嘻嘻] [哈哈] [挤眼] [太开心] 早安、甜心们"
1,【霍思燕剖腹产下“小江江” 老公落泪】今晨9时霍思燕产下一名男婴,宝宝重8斤3两,母子平安。杜江的脸上洋溢着做爸爸的欣喜:宝宝小名叫“小江江”,眼睛像他,鼻子和嘴巴则像霍思燕,看到宝贝就忍不住落泪!恭喜@杜江侦察记 @霍思燕 ,祝福“小江江”在爱里健康地成长[爱你]...http://t.cn/z8EwSPU
1,[鼓掌]//@慕春彦: 一流的经纪公司是超模的摇篮![鼓掌] //@姚戈:东方宾利强大的名模军团!
1,真好//@宁波华侨豪生大酒店:[可爱] [害羞]
1,"第一次见到有花瓣的面膜,一片抵普通面膜好几片 [哈哈]!补水神器啊,一帖见效! 睡前一片,15分钟超神奇膜法,第二天起来你会发现你脸又白又嫩还有光泽,持续几天皮肤好像剥了壳的鸡蛋一样白白嫩嫩的[太开心]! 明星推荐,美妆老师私藏的神奇""膜""法!8片礼盒装抢购地址>>>(去评论中找链接哦)"
1,好感动[亲亲]大家都陆陆续续收到超极本尼泊尔的奖品了,没想到你还带着去看瓷房子~祝蜜月快乐哦
1,"[雪]大象感觉好冷喔。。。 //@刑警叔叔: @小豆冰棍J202,@朱大象。//@新浪短信微博:大象放冰箱分三步,绑定手机也分三步。大象放冰箱很冷,微博绑了手机更安全哦~[可爱]"
1,[哈哈] //@维他命羊:探子![偷笑] //@每日维他命Beijing: [偷笑]@曙光ruirui //@不赖赖: 店里来了探子竟不知 //@薄荷Rebecca:@不赖赖 @冷山雪具 赖老板的货品华丽丽的出镜鸟[鼓掌]
1,更要感激部门同事@Miss猫小姐 @罗罗不落 和尚未开博的小徐同学及@番茄宝宝303 的辛苦付出,让我们携手前行、踏浪远航,创造属于我们的无限炫彩[爱你]
1,陪看,有三陪嫌疑,[哈哈]
1,还有 @星外星周小川 ,各位都是好声音啊,演唱会就星外星筹办了[哈哈] //@陈文彪BC: 回复@俞文辉:持续发生,你的演唱会什么时候开啊,你也是传说中的中国好声音啊,hoho 同意的举手 @天拓黄挺 @叶轩_汉草荟 @loson @cocon8 @张谦 //@俞文辉:有爱心,期待百首童谣! //@陈文彪BC:女儿,你有音乐唱了
1,第一次见,真心分辨不出是谁是谁,更别提真假了[嘻嘻]
1,哦,是双子男吗?旅游版组的成分好复杂呢[抱抱] //@玫瑰禁?:欢迎双子男。//@秦洲同:赶紧加上V,要不然走丢了不好找。//@雨齐Daisy:不错呀~ 新同事要加V么…… @伊比利亚火腿
1,[哈哈] //@失恋专属:哈哈,笑死我了
1,#轻松一刻# 笑成狗了!主人太有才了![哈哈]
1,踏踏实实喝奶吧[哈哈]
1,#约惠海航 圆梦飞翔#【惠享直减】购票购票购票,直减直减直减[打哈欠] 这不冲突,也很科学,来海航官网购票,管够,管实惠http://t.cn/zRpYB9r [嘻嘻] 每天500个名额,20元的直减,ok的赶快来[赞] 今天第二波15点开始~
1,角度问题[哈哈] ,童子鸡,马子不大的//@-小K妈-:好肥的一只鸡啊!怎么感觉有点“变异”了啊![哈哈][疑问]
1,程哥哥最近一直对着小蹦同学各种拍呀拍[照相机]//@小予CAT: [心] 好久没给他们拍照了[哈哈] //@ajoin: @小予CAT
1,理解用户的挣扎//@caoz:http://t.cn/anYWDI ?嗦很多,答案参见如上链接。@solaryf @土豆泥炖土豆 @limingx @dms-baidu //@caoz:排第一的,是4399小游戏[哈哈] .....百度目标寻址搜索的比例在所有搜索比例多少,趋势如何?与谷歌,搜搜对比如何,为什么?
1,这个可以感受一下。//@黄佟佟: [嘻嘻]//@吴筱羽: 北京??州真便宜啊,??有需要打?的的???。@子宇童鞋 @范宇翔 //@赵妍Alicia-chiu:这。。。//@白愁飞: //@时代周报王刚: 转发微博。
1,LV的哦~~~哦~~~//@积分宝贝: //@金沙江_朱啸虎: [哈哈] //@量化投资_丁鹏: /精辟啊!!/@江苏徐胖子:富,就要富在别人看不到的地方!富在别人看不到的时候!!//@Fiorina_科锐总监_金融猎头:[偷笑] /@量化投资_丁鹏:买个LV包包挎在身上,别人能看得到,知道
1,支持兰老师[鼓掌][鼓掌][鼓掌]
1,来自雪山脚下今年的竹笋系列#人没动,物先行#[尴尬]朗园店开业准备中[爱你]@懒人业余餐厅郎园店
1,免费泡面已经为大家准备了,以后晚上饿了再也不用到处找吃的东西了[给力][嘻嘻][带着微博去旅行][兔子][熊猫]
1,回复@张赫z_ryan:?![嘻嘻]感慨而已!u never know! //@张赫z_ryan:都失恋呢被?[嘻嘻]
1,跟参与汽车摇号一个心理,我中不了,也增加了别人中的难度![哈哈]@夕阳牛 @air甜馨 @E宝宝柠檬
1,纯净高雅的宝蓝,搭配华丽的金色作为点缀,能够提升整体的时尚度打造极致迷人气场,十分适合聚会以及派对穿着!连衣裙: Talbot Runhof 外套: rag & bone 鞋: Giuseppe Zanotti 手包: Jimmy Choo[爱你]【私享穿衣顾问微信:FashionTalent33 】
1,#中国梦想秀#@熊黛林Lynn 姐姐变身“礼物”帮助一抹金圆梦,送上了迪斯尼乐园的邀请函喔!![鼓掌]美是无数梦想的起点,恭喜我们Age48的姐姐们获得美丽绽放奖,你们的美丽来自你们正能量的心态,恭喜姐姐们,小伙伴们别忘了听姐姐们的话,永远不要放弃自己的梦想!![good]
1,@不可比方 你跑不掉啦~!这辈子和我栓在一起。[嘻嘻]
1,这不有吗[哈哈][哈哈][哈哈]
1,不会吧?[吃惊]俺刚刚从餐厅回来,没见到主任啊![嘻嘻]雪倒是下得很欢喜的样子。[雪][雪][雪][雪人][雪人][雪人][手套][围脖][温暖帽子] //@侯宁:主饪你是在家呢还是喝多了困在@嗨辣老孙 那里了?[偷笑] //@刘主饪: 回复@海科-七星智库:踏雪夜归人。  //@海科-七星智库:饮雪亦醉人[嘻嘻]
1,哈,南非一孙... //@妹莉十足:回复@共乐壶天:南非第一孙子.........[哈哈][哈哈][哈哈][哈哈] //@共乐壶天:南非第一孙子@独臂老宋 @妹莉十足
1,[鼓掌]//@权金城崔洪峰:扩散@权金城彭涌 @权金城-崔成哲 //@思想聚焦:转发微博
1,#昆航动态#2010年11月6日,在昆明市创业投资引导基金推介暨颁奖晚宴上,昆明航空有限公司董事长王清民(图中左五)从昆明市委常委、副市长刘光溪手上接过#2010泛亚地区最具投资潜质十强企业#证书和奖杯。[鼓掌] 昆明航空成为500多家报名企业中唯一一家获奖的航空企业。[礼花] http://sinaurl.cn/h4QFmF
1,"右边的,说的太对了! //@荔枝娘:""仿佛自己又变成了需要呵护的小女生""看到这话我觉得很诡异,现在很多愿意插手儿子家庭的婆婆都是这么过来的吧??// @宝宝公主的奶牛生活 : [嘻嘻]"
1,羡慕嫉妒恨![嘻嘻] //@大胖鱼鱼:来厦门旅游,在海边,漫步,戏浪,你也许会有如此幸运,旅游不花钱,还要给你钱,那条捡到的2万块的鱼,你值得来
1,[赞]认同,灵魂升起的地方! //@骑游公社://@大鹏背包走天下: 回复@新浪湖北旅游:一起分享那灵魂升起的地方! //@新浪湖北旅游:童鞋,你的这条微博内容灰常的八错,已经被选到新浪湖北旅游的网站咯!传送门: http://t.cn/aROSx3 [鼓掌]恭喜的同时也希望以后多@新浪湖北旅游 分享旅途哦
1,我在小米[嘻嘻]
1,最右。//@张坤: //@温柔大盗DONEWS:教主[威武] //@北京厨子: 最右!我也被忽悠啦,[哈哈]//@?丝文化传播: [哈哈]右边--》//@清华南都: 学校早就放假了,聪明人都不选这时候来做讲座。。。
1,#美国lake tahoe# 睡不着和小朋友们在房间烤棉花糖吃[?嘴][?嘴]我们假装在CAMPING[嘻嘻]
1,。。。等明天醒来他们是什么反应?[哈哈]//@冯文杰: ron哥口味重啊//@来去之间: 围观马甲 //@bian:这个这个,睡了 //@nico: 张馨予上错号啦。 //@魏君子: 男怕上错床?女怕嫁错郎?这是上错号了么?
1,求剩蛋礼物~[亲亲]
1,今天没事晚上有情况吗[哈哈] //@挡不住的美食个性:昨天晚上去的!哈哈 //@星级酒店培训郗老师:啥时又去吃了。
1,明天就见冬儿了~~[太开心]//@猫咪家的小魔女: 不管是出生之前,还是出生之后,你和妈妈都是一体的。。。
1,哈哈[哈哈][哈哈][哈哈]@高小胖930 @AlwaysObsessed @爱生活-爱橙子 @子心--妞儿  //@?事搜一搜:[赞]
1,东西到货,G先生肯定又会夸我贤良淑德!买了三家的,刚买就告诉他了,他说,我太懂他麻麻的心了~~[鼓掌][偷笑]
1,like!他是萨芬娜的粉丝吧~[嘻嘻] //@conanemily:爱他!
1,澳洲老有surprise[嘻嘻]//@李开复:你是饿了,还是怕了?
1,[哈哈][哈哈]//@刘铨淼: 转发微博
1,你也会幸福的,午安[嘻嘻]//@CUC艾欣:真幸福。早安~
1,顶风作案!明知有雨,但实在舍不得半个月前就定好的票!40大洋一张呢,3个人120大洋呢![嘻嘻]叫人高兴的是凭票换冰淇淋,赚大了![哈哈]
1,偶爱土豆[哈哈]
1,晨练都这么有范,是不能经常亮相[嘻嘻] //@黄村:步伐很稳嘛[哈哈][哈哈] @胡大治
1,[嘻嘻]亲,楠哥的店品质有保证,希望亲多支持哦~
1,有朋友说,来了@文怡美食生活馆 后,总觉得自家厨房变小了[哈哈]
1,在宫城人偶体验店画小娃娃,算是三八礼物吧[哈哈] 老爷爷50对岁了,从父辈开始就在和木头打交道,喜欢木头的味道
1,回复@夜里梵高:君亭的家门向每个游子敞开!欢迎回家![鼓掌] //@夜里梵高:我想回家!哈哈哈[亲亲] //@杭州君亭湖滨酒店:君亭,你在杭州的另一个家!
1,[鼓掌]请各位好友帮我们公司的应有投个票,多谢~!第90号“阅米”
1,#ICing美食时尚专家团#加班时间,很适合吧?//@Sunray加V:有点像西柚汽水,略带酒香味。[鼓掌]
1,"您今天也带阿婆阿公去看猫宝宝了吧. 有爱心的乖宝宝! [赞] //@悦馨:是啊,野猫把猫宝宝生在我家阳台上啦! // @光照大地 :[哈哈] 又来了一只小猫阿! 和米多颜色一样哦. 好玩!"
1,把你拍在刀尖上//@光头阿斌哥: 回复@美食CEO宁哥:@三摩地帮主 长江后浪推前浪,一浪给帮主拍沙滩上[哈哈][哈哈][哈哈] //@美食CEO宁哥:恩那是我们向往的目标[嘻嘻][嘻嘻][嘻嘻][嘻嘻]
1,这种事情,只有在最神奇的国度才会出现!//@晏耀斌:[哈哈]//@作家高海波://@转评作者: //@广州湾在线: 转发微博
1,咱们结伴去布达佩斯当土豪吧![嘻嘻]先备个攻略>>http://t.cn/zRoKlPj
1,洗衣服啊!求捎带![哈哈]//@六普团委: 转发微博
1,这样子啊~[哈哈]值得转发
1,多逛逛哦。相信会有更多的惊喜![爱你][爱你]
1,谢谢[可爱]谢谢[可爱]《?小》??→ http://t.cn/zWUj57I //@壶理又壶图: 感动 励志 简单的情节简纯的画面伴着少年铿铿的话语喷发出人性良知的光亮和力量//@黄茜: [呵呵]//@大村敦志_Ash_Omurah: [赞][可爱]//@学会执着zhdh: 老师就是老师,觉悟都高,要是看您片的人觉悟都这样,世界就真和平了
1,罗琳变身罗伯特,期待作品也出现脱胎换骨的变化~[鼓掌]//@彭伦空间: 她起了个男人的笔名,是要跟男性推理小说家叫板吗? //哎呦喂,罗姨又来了!
1,【加班诗】灯火阑珊已深,车水马龙渐稀,父慈子孝团聚时,怂人独守加班中――送给加班的自己[嘻嘻]
1,//@爱旅游爱赣州: 中央四套出品,[good]展示赣州客家人文历史,将拍十二集,九月左右播出,期待中。//@客家情e:《客家足迹行》走进客家摇篮―赣州![鼓掌]@爱旅游爱赣州 @江西风景独好 @江西赣州旅游 @赣州天下游 @赣州小编 @赣州同城会
1,@盖梆 :盖梆侠义热心肠,帝都赚钱可劲忙。钞票数来又数去,疏财打点到我帐。[哈哈][哈哈]
1,挺好玩儿的,过年更充实了。[太开心] //@母其弥雅:初一我?一起吃素吧~?得不要吃稀?,洗澡和睡午?喔~
1,[哈哈]//@闻博_Jasper: [哈哈][哈哈][哈哈]
1,我关注到了,虽然说“得到了全世界人民的坚决拥护”,却只有中国媒体在“争先恐后地转载”“铿锵有力、义愤填膺地朗读”,立刻想起那句唐僧唱出的Only you... 朝鲜军民的中国成语用得很熟练,要赞一个。 //@夏芒:[哈哈] #狂人日记# //@今日朝鲜:请注意你的言语。
1,要我年?十?一定?周生生??系列,太可?了!3020hkd ?我??95折呢。墨西哥版?限量呢。也真服了那些年?人,?上找??托我下手[哈哈][哈哈]
1,等哈尔滨开店了,你就有口福了[哈哈]
1,前天外景冻感冒,今天二十五片暖宝宝,贴满前胸后背,有了这些盔甲,今天的外景戏,就不怕冷啦![哈哈][哈哈][哈哈]<家和万事兴>@简远信
1,回复 @契尔年科-:因为搭档@盛博 的一句话,让我得到了更多朋友的祝福,每句生日快乐都让我感动不已。谢谢让我快乐的工作,让我骄傲的朋友,让我幸福的家庭,谢谢你们让我拥有的一切 //@契尔年科-:生日快乐!熊大美女! //@熊丽电台: 我很荣幸被@盛博 挤兑,这样能让我变得聪明。[太开心]
1,哈哈,这姑娘也成新鲜物了。说到具体是哪儿产的,还真寡闻了[思考] //@i蓝莓妈妈:[围观]哥伦比亚龙珠果???[吃惊][偷笑][哈哈] 敢情咱80年代吃过这么华丽丽的洋果,那时候多的是,且便宜。@嘟嘟小花牛  //@钱文忠:上海超市、街头可以买到,其味独特可口,超?里的名字不统一,大多起洋名,其意昭然
1,好的?????????祝你成功[鼓掌]
1,放假了!这一周必须用来消费快乐。可别上班时想的是放假,放假时想的是工作。什么时间就做什么事。放假了!都玩儿起来吧。得会陪领导欢乐谷走起[嘻嘻]
1,谢谢亲爱的,送你哦!//@李慧珍:哇咔咔~[花心][花心][花心]都是我喜欢滴~[鼓掌][鼓掌][鼓掌]恭喜妞啊~
1,大师算的真准!这么闷的天儿,鱼也不咬勾啊[哈哈][哈哈]
1,阿一股[哈哈]
1,我哭!我哭!我哭!//@elsa-zhuyun:哈哈,祝姐减肥成功,也不指望你能减到多瘦,能回到以前美美的样子就很不错啦![哈哈]
1,回复@周墙:兄弟我长期无语中。[哈哈] //@周墙:无语了,哈哥 //@周墙:扯淡的社会。
1,"我热4-1干掉凯子![怒] //@ALAN7汪涛:?干掉LBJ! //@朱开开:[哈哈]贴切~//@小包子他爸: yeah, bitches//@LOVE_凯尔特人: 魔术师一定不是故意的!//@鲍贰: 终于拿下了,说个好玩的,M.Jackson比赛开始前做节目本来要说:Miami benches.....不过他却说成了Miami bitchs....[偷笑]"
1,来过傣族寨子的朋友应该知道这道菜的菜名[嘻嘻]@小驴佳佳 @户外志雨儿 @张震摄影-专业汽车旅行 我在:http://t.cn/8F8WWUK
1,哇!稀饭诶[鼓掌]
1,"激动人心的时刻[心]#微动日照#传播大赛大奖ipad实图奉上!感谢@日照市旅游局官方微博 的好活动.东方太阳城给了我太多惊喜,美食霸占味蕾,美景俘获视觉[爱你]仙山兔耳鳗鱼香螺,故地重游也仍有遗憾.日照,美就一个字,我还会再来的@日照旅游王立新@日照旅游-日出先照当属日照@日照旅游咨询网@山海美景"
1,请问这款多少银子?[威武][围观][爱你]
1,[哈哈]太像了太像了~
1,回复@赵红欣CZ:[可爱]这评价太高了,我再接再厉。 //@赵红欣CZ:@友君微博 和@周思超 具备以上特征,特此[赞]!
1,@养熊猫的李桑 给你来一个?[嘻嘻]
1,@光头老薛 [哈哈][哈哈]
1,学生手册,怀旧一下[嘻嘻]。你用过这个版本不?
1,怎么个免费法[鼓掌] ,估计往返呼伦贝尔的费用自理吧? @八戒如来神掌 @梁智勇 @海疯 @吹?DO
1,[哈哈]//@霏霏琦小只猪: [思考]有黑幕?!//@欣怡Leafly: @勇敢的马 @钟Sir--@霏霏琦小只猪 //@万度创智传媒:[哈哈][哈哈]
1,//@陈莎SHA:美~[亲亲][亲亲][亲亲]
1,//@星座爱情001: 女人,要经营自己![鼓掌]
1,UP!虽然你很不和谐//@风言疯语LaiN胖子:为啥你不关注别人,却要别人关注你?学名人啊?[嘻嘻] //@ponponxu:转发微博。
1,连蛋糕都上演彗星撞地球,末日的气氛十足呀[嘻嘻]
1,#须叔荐书#春节前最后一赞《#下一站,影帝#》:@青罗扇子 《名流巨星》第三部,新生代偶像VS黑道经纪人、声色娱乐界VS恩怨幕后战,CP更萌、虐点更足[威武]叔已被侄女带成扇大粉[哈哈]感谢@青罗扇子官网 提供好书!闪瞎的烫金烫银书名[赞]正好听李祥祥首单《绝地》,歌词很像写顾羽呢http://t.cn/8FxpxKX
1,一直觉得四川话真好听,传神呀[哈哈]//@朱小黑: /先生,您对成都的限行有什么感想吗?” “可以说家乡话不?” “可以” “不晓得日嘛哪个瓜娃子哈麻批想出来嘞这个锤子政策,他懂个铲铲啊,日他仙人板板哦!~” “这个是什么意思呢?” “就是努力工作,为构建和谐社会贡献自己的力量/@成都-陈琳:
1,// @melissa_晓梅 :实践ing[爱你]@亦菲晴岚猜火车
1,我转了,捡不到明天找你要了[嘻嘻]
1,美女到北京,北京欢迎你 ~[嘻嘻][威武][围观]
1,标准由会员大会选举出?并经省民政厅社团管理局批准、省旅游主管部门认可的合法副会长。不过该会七年不换届,我也早该下台了。下台也是首届副会长。[哈哈] //@伟哥嘛:有??????[嘻嘻][哈哈][兔子]
1,回复@柠檬猫薄荷:对[爱你]
1,我觉得。。。。这个人听力有点厉害。。。[哈哈][哈哈]
1,早安[亲亲]
1,别客气嘛~[太开心]小狗狗有家了,我就开心了~~[爱你]
1,你们辛苦//@三丁ting:谢谢Elo帮忙看摊![嘻嘻]
1,真的有很多相同之处啊!结拜为兄弟吧![哈哈]//@厚子林:亲们,视频发啦。回味下泉州的味道。客串主持人好美@南京-老李 @嘉美猫 @温和行者 @苏世独立啦 @繁星满天飞扬 @石泡泡大仙 @Domo-YoYo @大脚丫丫跳芭蕾 @香大菜 @郝浩
1,回复@老邵拖延症早睡早起:换衣服啊//@老邵拖延症早睡早起:回复@相声演员大春:说得是晚上散场的时候[哈哈]门口等了好久都不出来哇
1,美丽的天鹅向我们游来。[爱你]
1,宁时细个还一味按动画,因为家里没有上网,不会装游戏。天真可爱的三年级。//@我系鸡头: [哈哈]
1,晚饭开始啦![抱抱] 这是什么菜?竞猜竞猜!!
1,重要节日!祝快乐!过节的童鞋请对号入座~[嘻嘻][鼓掌][爱心传递]
1,"真正的原生态!!!所以呢,人不要试图去改变自然,而需要去适应自然!!![哈哈]"
1,#舌尖上的河北#吃到了勒泰这边的石头饼,口味一般,味道有点淡。搞不懂为啥要叫石头饼呢?你知道哪家石头饼好吃吗?[抱抱]
1,玉立婷婷,美好心情!@孙烨  幸福人生!生日快乐![玫瑰][玫瑰][玫瑰][爱你][爱你][爱你][蛋糕][蛋糕][蛋糕]
1,?[哈哈] //@梦想家陆子矜:说的对
1,回复@奔跑的大儿童:呵呵,那到时一定要报名啊![嘻嘻] //@奔跑的大儿童:我想去。。。
1,#读老舍#终于快到周末了[泪]多么美好的两个字啊!不知道有没有在为年会节目等苦恼的观众?分享一篇《科学救命》,安慰一下。[嘻嘻]
1,随手拍 放大看 生活处处有惊喜 运营商就别捂着啦 Iphone 5 来了![嘻嘻][围观]

听词表例样:

!
"
#
$
%
&
'
(
)
*
+
,
-
--
.
..
...
......
...................
./
.一
.数
.日
/
//
0
1
2
3
4
5
6
7
8
9
:
://
::
;
<
=
>
>>
?
@
A
Lex
[
\
]
^
_
`
exp
sub
sup
  1. 数据读取

新浪微博数据集(网上搜集、作者不详)来源于网上的GitHub社区,有微博10 万多条,都带有情感标注,正负向评论约各 5 万条,用来做情感分析的数据集。

  1. 数据预处理
  1. 分词

# 结巴分词

import jieba

data['data_cut'] = data['review'].apply(lambda x: jieba.lcut(x))  #内嵌自定义

  1. 去停用词

# 读取停用词

with open('data/stopwords.txt','r',encoding = 'utf-8') as f:  #读取停用词

    stop = f.readlines()

# 对停用词列表处理

import re

stop = [re.sub('\n','',r) for r in stop]   #替换停用词表的空格、换行等

# 把分词之后的文本根据停用词表去掉停用词

data['data_after'] = data['data_cut'].apply(lambda x : [i for i in x if (i not in stop and i != '\ufeff')])

  1. 词云分析

from wordcloud import WordCloud

import matplotlib.pyplot as plt

# 词频统计

# 重组词组

num_words = [''.join(i) for i in data['data_after']] #把所有词组提取出来

num_words = ''.join(num_words)

# 计算全部词频

num = pd.Series(jieba.lcut(num_words)).value_counts()

# 用wordcloud画图

wc_pic = WordCloud(background_color='white',font_path=r'C:\Windows\Fonts\simhei.ttf').fit_words(num)

plt.figure(figsize=(10,10))  #图片大小定义

plt.imshow(wc_pic)#输出图片

plt.axis('off')#不显示坐标轴

plt.show()

  1. 词向量

# 构建词向量矩阵

w = []

for i in data['data_after']:  

w.extend(i)  #将所有词语整合在一起

num_data = pd.DataFrame(pd.DataFrame(w).value_counts()) # 计算出所有单词的个数

num_data['id'] = list(range(1,len(num_data)+1))

# 转化成数字

def word2num(x):

    if len(set(x)) == len(x):

        return list(num_data['id'][x])

    else:

        return [num_data['id'][i] for i in x]

data['vec'] = data['data_after'].apply(word2num)

  1. 划分数据集

maxlen = 128   #句子长度

vec_data = list(sequence.pad_sequences(data['vec'],maxlen=maxlen))   #把文本数据都统一长度

x_train,x_test,y_train,y_test = train_test_split(vec_data,data['label'],test_size = 0.2,random_state = 0)   #分割训练集--2-8原则

  1. 模型搭建
  1. 模型定义

# 模型搭建

model = Sequential([

    #定义嵌入层

    Embedding(len(num_data),  # 词汇表大小中收录单词数量,也就是嵌入层矩阵的行数

                    256,           # 每个单词的维度,也就是嵌入层矩阵的列数

                    input_length=maxlen),

    # 定义LSTM隐藏层

    LSTM(128, dropout=0.2, recurrent_dropout=0.2),

    # 模型输出层

    Dense(1, activation='sigmoid')

])

  1. 编译模型

loss='binary_crossentropy',

optimizer='adam',

metrics=['accuracy'])

  1. 模型训练
  1. 训练

epochs=5,

validation_split = 0.2

verbose=1

  1. 获取训练历史数据中的各指标值
  2. 绘制指标在训练过程中的变化图
  1. 模型评估

使用测试集对模型进行评估

完整代码:

# Import necessary libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# 读取数据
data = pd.read_csv('ahw_weibo_senti.csv')  # 假设你的数据文件名为sentiment_data.csv
texts = data['review'].tolist()
labels = data['label'].tolist()

# 分词和去停用词
stopwords = set(line.strip() for line in open('stopwords.txt', encoding='utf-8'))
def preprocess_text(text):
    words = jieba.lcut(text)
    return ' '.join([word for word in words if word not in stopwords])

texts = [preprocess_text(text) for text in texts]

# 生成词云
all_words = ' '.join(texts)
wordcloud = WordCloud(font_path='simhei.ttf', width=800, height=400).generate(all_words)
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

# 文本向量化
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
word_index = tokenizer.word_index

# 填充序列
max_len = 100  # 设定序列最大长度
data = pad_sequences(sequences, maxlen=max_len)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

# 模型构建
vocab_size = len(word_index) + 1
embedding_dim = 50

model = Sequential([
    Embedding(input_dim=vocab_size, output_dim=embedding_dim),
    LSTM(128, dropout=0.2, recurrent_dropout=0.2),
    Dense(1, activation='sigmoid')
])


model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.summary()

# 模型训练
epochs = 5
batch_size = 64

history = model.fit(X_train, np.array(y_train),
                    validation_split=0.2,
                    epochs=epochs,
                    batch_size=batch_size,
                    verbose=1)

# 模型评估
y_pred = model.predict(X_test)
y_pred = (y_pred > 0.5).astype(int)

print("Classification Report:")
print(classification_report(y_test, y_pred))
print("Accuracy:", accuracy_score(y_test, y_pred))

# 绘制训练过程中的损失和准确率曲线
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='train_loss')
plt.plot(history.history['val_loss'], label='val_loss')
plt.legend()
plt.title('Loss')

plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='train_accuracy')
plt.plot(history.history['val_accuracy'], label='val_accuracy')
plt.legend()
plt.title('Accuracy')

plt.show()

这段代码是一个基本的情感分析(sentiment analysis)示例,使用了深度学习模型 LSTM 来进行文本分类。让我们逐步分析这些代码的功能和步骤:

  1. 导入必要的库

    • numpypandasmatplotlib.pyplot: 常用的数据处理和可视化库。
    • jieba: 用于中文分词的库。
    • WordCloud: 生成词云的库。
    • sklearn.model_selection.train_test_splitsklearn.metrics.classification_reportsklearn.metrics.accuracy_score: 用于数据集划分和评估模型性能的工具。
    • tensorflow 和 keras 相关模块:构建和训练深度学习模型所需的库。
  2. 读取数据

    • 从名为 ahw_weibo_senti.csv 的文件中读取数据,假设数据包含两列 review 和 label,分别表示文本和标签。
  3. 文本预处理

    • 使用 jieba 分词,并去除停用词。停用词列表保存在 stopwords.txt 文件中。
  4. 生成词云

    • 将所有预处理后的文本连接起来,生成词云图像展示文本数据中的关键词。
  5. 文本向量化

    • 使用 Tokenizer 对文本进行向量化处理,将每个词转换为数字序列。
  6. 填充序列

    • 将文本序列填充或截断为固定长度 (max_len),以便输入到模型中。
  7. 划分数据集

    • 使用 train_test_split 将数据集划分为训练集和测试集。
  8. 模型构建

    • 使用 Sequential 搭建神经网络模型,包括嵌入层 (Embedding)、LSTM 层、和输出层 (Dense)。
    • Embedding 层将整数编码的词汇表达为密集向量。
    • LSTM 层用于处理序列数据,捕捉文本中的长期依赖关系。
    • 输出层使用 sigmoid 激活函数输出单一的预测值(情感分类的概率)。
  9. 模型编译

    • 使用 binary_crossentropy 损失函数进行二分类问题的训练。
    • 优化器选择 adam,评估指标设定为 accuracy
  10. 模型训练

    • 调用 model.fit 方法进行模型训练,指定训练集和验证集的数据、训练轮数 (epochs)、批次大小 (batch_size) 等参数。
  11. 模型评估

    • 使用测试集评估模型性能,输出分类报告 (classification_report) 和准确率 (accuracy_score)。
  12. 绘制训练过程中的损失和准确率曲线

    • 使用 matplotlib 绘制训练过程中训练集和验证集的损失和准确率变化曲线。

这段代码展示了如何利用深度学习模型(特别是 LSTM)对中文文本进行情感分析任务的建模和实现过程。

 

结果:

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张謹礧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值