小组讨论及Twitter用户信息进一步处理
1. 前后端协调
这几天组内进行了多次的讨论,前后端的同学将这几天做的工作进行对接,并对如何进行下一步的工作进行讨论。后端的同学基本上完成了用户信息的爬取,负责整合后端的同学使用falsk框架进行后端的搭建,并在阿里云服务器上搭建环境供前端同学使用;前端的同学们完成了页面的框架,实现了增删改查等操作,并进行图表等绘制,我们希望在前端对指定用户进行搜索的时候可以自由组合查询的网站,前端的同学们也实现了这个功能。
这几天主要的工作是前后端的对接以及后端程序的整合,进行阶段性的整理,为线上实训部分明确一下任务,接下来主要是对整个前后端流程进行梳理,进行一些测试性的工作。
2. 数据的进一步处理
2.1 数据的清洗
因为抓取到的Twitter上有表情等特殊符号,在插入数据库时会报错,所以,这里需要对抓取的内容信息进行清洗。
def filter_emoji(desstr, restr=''):
# filter emoji
try:
res = re.compile(u'[\U00010000-\U0010ffff]')
except re.error:
res = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
return res.sub(restr, desstr)