- 博客(8)
- 收藏
- 关注
原创 暑期实训项目(8)-- 项目总结
最后的几天,我们的项目在进行测试和完善,遇到了如服务器代理问题,前端缓存问题等难点,大家一起讨论问题并在指导老师的帮助下完成了项目的调试。构建任务画像首先收集数据,这里的数据来自微博、B站等国内网站,Facebook、Twitter、纽约时报等国外网站,可以实现静态与动态爬取,通过关键词等进行数据库查找,如果没有的话可以进行实时的爬虫搜索。...
2021-07-28 21:44:25 214
原创 暑期实训项目(6)-- 纽约时报新闻爬虫
纽约时报爬虫实现过程1. 接口2. requests模块代理3. 连接mysql数据库4. 数据抓取实现过程1. 接口项目实现通过关键词查询来得到与用户相关的新闻,那么就要从搜索页的进行分析,查看url:这里的接口是/query?data,这样可以对爬取的url进行设置: # url url = 'https://cn.nytimes.com/search/data' # 参数 params = { "query": query, "
2021-07-17 22:07:09 1104
原创 暑期实训项目(5)--讨论及新闻类爬虫
纽约时报爬虫讨论纽约时报网站分析讨论之前我们进行了Twitter、Facebook、知乎等一些网站的用户爬虫,通过爬取的用户数据进行用户画像的构建,在讨论中老师指导到对于一些公众人物,我们只对他们的用户信息进行爬取是不够的,还可以通过新闻网站的新闻对公众人物进行更全面的刻画,通过爬取新闻网站中与人物有关的新闻并进行分析,可以进一步构建出用户画像。纽约时报网站分析网站:https://cn.nytimes.com/想要做的是通过关键字获取与关键字有关的文章,查看网站代码:可以看到这里的新闻是动态
2021-07-14 21:02:33 217
原创 暑期实训项目(4)--小组讨论及数据进一步处理
小组讨论及Twitter用户信息进一步处理1. 前后端协调2. 数据的进一步处理2.1 数据的清洗1. 前后端协调这几天组内进行了多次的讨论,前后端的同学将这几天做的工作进行对接,并对如何进行下一步的工作进行讨论。后端的同学基本上完成了用户信息的爬取,负责整合后端的同学使用falsk框架进行后端的搭建,并在阿里云服务器上搭建环境供前端同学使用;前端的同学们完成了页面的框架,实现了增删改查等操作,并进行图表等绘制,我们希望在前端对指定用户进行搜索的时候可以自由组合查询的网站,前端的同学们也实现了这个功能。
2021-07-11 00:10:23 179
原创 暑期实训项目(3)--推特爬虫用户爬虫(已完成)
Twitter用户基本信息爬虫1.UserCrawler.py1.UserCrawler.py这一部分是scrapy框架中对网站进行爬虫的文件,首先进行初始化: def __init__(self, query=''): self.url = ( f'https://api.twitter.com/2/search/adaptive.json?' f'include_profile_interstitial_type=1'
2021-07-06 16:09:27 1209
原创 暑期实训项目(2)--推特爬虫数据处理
后端数据爬虫--Twitter1. 爬虫的目标2. 爬虫的思路2.1 步骤2.2 几个选择2.2.1 Scarpy+ Selenium2.2.2 没有使用Twitter API3. 爬虫网站分析3.1 网页结构分析3.2 user数据3.3 tweet数据4. 创建Scrapy爬虫框架1. 爬虫的目标在Twitter网站中爬取到大量的用户,并得到用户的基本信息和发布的推文,可以实现在某一话题中爬取用户及推文和根据用户名爬取用户主页的功能。2. 爬虫的思路2.1 步骤①模拟浏览器向推特搜索网页发送G
2021-07-03 15:04:47 1306
原创 暑期实训项目(1)--项目结构及工作准备
智能人物画像综合分析系统1. 项目概要2. 项目需要解决的问题2.1 信息采集2.2 构建人物画像2.3 构建知识图谱3. 系统功能3.1 智能数据整合3.2 用户画像模块3.3 数据可视化模块4. 项目架构1. 项目概要用户画像是根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。通过对用户信息进行沉淀、加工和抽象,形成一个以用户为主key的标签树,用于全面刻画用户的属性和行为信息,构建用户画像的核心工作是给用户贴标签,通过国内外指定网站获取数据,结合算法模型,综合分
2021-06-30 16:07:48 414
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人