CSDN社区编程语言信息抓取与统计

完整资料进入【数字空间】查看——搜索"writebug"

一、研究背景及主要内容
1.1 研究背景
中国专业 IT 社区 CSDN (Chinese Software Developer Network) 创立于 1999 年,致力于为中国软件开发者提供知识传播、在线学习、职业发展等全生命周期服务。CSDN APP 是开发者专属移动 APP,提供最新技术资讯、开发知识,助力开发者学习和成长,让技术交流更简单。CSDN Blog 是致力于为开发者打造专业技术写作、分享与交流平台,为技术人提供全面的资讯与知识交流互动。CSDN 技术论坛:全力为 IT 开发者打造分享技术心得、讨论技术话题的信息平台。CSDN 资源下载中心:为 IT 专业人士提供丰富全面、专业的技术资料分享、交流与下载服务。

在 CSDN 平台上,有丰富的软件相关知识,从入门级别的教学帖子,到大佬级别引起热议的内容,CSDN 上有内容广泛的代码知识,同时也有诸多开源的代码及项目工程。

1.2 研究内容
针对在 CSDN 上的搜索结果,进行存储和分析。其中存储采用列表格式,对每条搜索结果的标题、时间、作者、阅读量、点赞量、评论量以及标签进行存储,存储到 txt 文本文档中。对结果的分析包括关键词/热词词频排序、阅读量、点赞量和评论量的分级可视化统计以及排行榜,并且将结果同样存储到 txt 中。

二、开发环境
开发环境选取了 python 语言,安装了 matplotlib 等库,访问浏览器为 Chrome。

三、主要代码设计
3.1 搜索结果网页数据爬取与存储
3.1.1 访问搜索链接
由于我们的项目是爬取 csdn 上关于各个语言的帖子内容等,因此需要访问搜索链接。经分析,搜索链接里包含了搜索的内容和页码,因而我选择将这两部分用 %language% 与 %page% 进行填充,在实际访问时使用 replace 进行具体内容的替换。因而只需要预先在列表里输入好要获得的语言数据,再选定要爬取的页码,通过两层 for 循环即可。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值