网络爬虫
文章平均质量分 91
爱学习的数据喵
喵喵
展开
-
“泰迪杯”挑战赛-争对主流论坛(新浪,天涯,哇哈哈)进行正文提取
目 录挖掘目标全文脉络图爬虫技术简介3.1. 爬虫简介3.2. 正则表达式介绍具体步骤4.1. 解题思路4.2. 提取主题帖4.3. 提取回帖效果展示5.1. 哇哈体育论坛爬虫结果5.2. 新浪论坛爬虫结果5.3. 天涯论坛爬虫结果参考文献1. 挖掘目标在当今的大数据时代里,伴随着互联网和移动互联网的高速发展, 人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息, 已成为政府和企业的一个重要数据来原创 2021-04-29 14:57:56 · 386 阅读 · 0 评论 -
“泰迪杯”挑战赛 -利用收视记录定义用户画像(基于爬虫数据分析)
目录一、 引言1.1 背景1.2 研究内容1.3 研究思路二、数据预处理2.1 附件 1:用户收视信息2.1.1 用户收视信息2.1.2 用户回看信息2.1.3 用户点播信息2.1.4 用户单片点播信息2.2 附件 2:电视产品信息数据2.3 附件 3:用户基本信息三、研究方案及实施3.1 问题一3.1.1 基于用户的协同过滤3.1.2 基于电视产品的协同过滤3.1.3 方案实施及测试3.2 问题二3.2.1 构建用户标签体系(用户画像)3.3.2 构建产品标签体系原创 2021-04-25 11:39:16 · 1636 阅读 · 10 评论 -
“泰迪杯”挑战赛 - 利用网络爬虫提取通用论坛正文
目录一、引言二、实验方案2.1 初步方案设计(解题思路)2.2 方案具体分析2.2.1 方案一可行性分析2.2.2 方案二核心思想2.2.3 方案三可行性分析2.2.4 方案综合分析三、 实验过程3.1 前期准备3.1.1 样本统计分析3.1.2 论坛标签统计3.1.3 主回帖判断分析3.2 方案形成3.2.1 选择器规律汇总3.2.2 主回帖判断3.2.3 初步方案3.3 后期测试3.3.1 查准率测试3.3.2 查全率测试3.4 特殊论坛提取框架3.4.1 容原创 2021-04-23 14:02:40 · 686 阅读 · 0 评论