暑期实训项目(4)--小组讨论及数据进一步处理

小组讨论及Twitter用户信息进一步处理

1. 前后端协调

这几天组内进行了多次的讨论,前后端的同学将这几天做的工作进行对接,并对如何进行下一步的工作进行讨论。后端的同学基本上完成了用户信息的爬取,负责整合后端的同学使用falsk框架进行后端的搭建,并在阿里云服务器上搭建环境供前端同学使用;前端的同学们完成了页面的框架,实现了增删改查等操作,并进行图表等绘制,我们希望在前端对指定用户进行搜索的时候可以自由组合查询的网站,前端的同学们也实现了这个功能。
这几天主要的工作是前后端的对接以及后端程序的整合,进行阶段性的整理,为线上实训部分明确一下任务,接下来主要是对整个前后端流程进行梳理,进行一些测试性的工作。

2. 数据的进一步处理

2.1 数据的清洗

因为抓取到的Twitter上有表情等特殊符号,在插入数据库时会报错,所以,这里需要对抓取的内容信息进行清洗。

def filter_emoji(desstr, restr=''):
    # filter emoji
    try:
        res = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
        res = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return res.sub(restr, desstr)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值