爬虫
小羊小羊小羊羊羊
小羊小羊小羊羊羊羊
展开
-
对selenium无法定位到标签问题的更新
在视频话题识别与跟踪demo1.0中,用selenium定位video标签失败,定位其他标签也失败 可能存在的问题是: “查看网页源代码”的代码内容是服务器发送到浏览器的原封不动的源代码,不包括页面动态渲染的内容 “审查元素”包括源代码+js动态渲染的内容,即最终展示的html内容 当时用current_url其实有发现返回的url已经不是我get请求的url了,但是并没有深究,今天发现用page_source时看到下面一段代码: // 跳转回初始地址。 var back = function(原创 2022-03-26 18:24:34 · 505 阅读 · 0 评论 -
视频话题识别与跟踪 - demo 【问题总结1.0-爬虫方面】
这个项目是实践课正在做的,想法来源于现在的话题识别与跟踪技术,当前的话题识别与跟踪基本是对热点话题文本进行识别与跟踪。 由于短视频的流行,我想做的是对视频话题进行识别与跟踪。 用了一晚上时间写出了demo,大致走完了前期数据获取的流程,后面的工作基本就是重复代码去进行大量数据的获取。 中间遇到了一些问题,在这里大致总结一下:(本篇仅涉及爬虫方面) 在对微博页面元素进行定位时,明明审查元素中可以定位到,但是代码却无法定位到内容 “查看网页源代码”的代码内容是服务器发送到浏览器的原封不动的源代码,不包括页面原创 2022-03-25 03:04:19 · 159 阅读 · 0 评论