Python爬虫基础
文章平均质量分 86
爬虫基础知识实操笔记
向之 所欣
无为而无不为。
展开
-
基于MongoDB的电影影评分析
每个阶段都执行一个操作,如过滤、投影、分组、排序和重新整形文档等,最终的输出会被传递给下一个阶段。综上,对于Top10的电影,除了评分、观看数等指标,评论分歧率直观体现了影视的影响力,这意味着观众可以选择这个分歧率较小的电影作为参考,达到更好的观看体验,同时对于同行,能更放心地借鉴其中的一些高深的拍摄手法、剧情演绎方法等。这里展示了三部电影的评论词云,而且是在21年1月份以后的评论,在MongoDB的强大支持下,检索某个日期里的文档数据十分遍历,通过这样的方式,我们能感受到电影从去年到现在的影响力。原创 2024-06-30 08:08:12 · 845 阅读 · 0 评论 -
Python爬虫基础之 Scrapy
CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发 送请求所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpider是非常合适的。注意:一般情况下不需要添加http协议,因为start urls的值是根据allowed domains修改的,所以添加了http的话,那么start urls就多了个http,还需要我们去手动删除。比如下载路径、下载的url和文件的校验码等。原创 2023-11-20 11:25:02 · 933 阅读 · 1 评论 -
Python爬虫基础之 Requests
在使用python爬虫时,需要模拟发起网络请求,主要用到的就是requests库和python内置的urllib库,requests是对Urllib的再次封装。 原因是pycharm对控制台输出内容的大小做了限制,可以在帮助中的“编辑自定义属性”中追加数据修改,具体操作可到网上寻找教程。requests可以直接构建常用的get和post请求并发起,而Urllib一般要先构建get或者post请求,然后再发起请求。 原因是爬取的源码未格式化,可以存储到文件中进行格式化,使内容排版符合格式。原创 2023-11-19 17:48:11 · 717 阅读 · 1 评论 -
Python爬虫基础之 Selenium
Selenium是一个浏览器自动化测试框架,是一款用于Web应用程序测试的工具。框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真实用户所做的一样,从终端用户的角度测试应用程序。使浏览器兼容性测试自动化成为可能,尽管在不同的浏览器上依然有细微的差别。使用简单,可使用Java,Python等多种语言编写用例脚本。原创 2023-11-18 11:00:44 · 804 阅读 · 1 评论 -
Python爬虫基础之 解析
BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。原创 2023-11-17 08:11:59 · 880 阅读 · 1 评论 -
Python爬虫基础之 Urllib
爬虫:网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本,其本质是模拟浏览器打开网页,获取网页中我们想要的数据。常用的百度、谷歌的搜索引擎也是一个爬虫,把互联网中的数据搜集组合起来便于用户检索。注:爬虫并不是Python独有的,可以做爬虫的语言有很多例如:PHP, JAVA, C#, C++, Python,选择Python做爬虫是因为Python相对来说比较简单,而且功能比较齐全。原创 2023-11-16 08:36:10 · 2703 阅读 · 1 评论