自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 fetch_20newsgroups报错403的解决办法,附带朴素贝叶斯算法应用

下载后的压缩包名字应该为20news-bydate.tar.gz。先将压缩包放入C:\\Users\\(自己的电脑名)\\scikit_learn_data\\20news_home\\的文件夹中。首先找到Pycharm右下角的这个解释器(Python3.11),点击它,进入interpreter St像我的在D盘,就是要找到这个地址里的Lib文件D:\pydemo\venv\Lib\site-packages\sklearn\datasets里面有一个 _twenty_newsgroups.py 文件

2023-08-15 20:28:59 3046 7

原创 解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫(选择题、填空题、判断题)(第1、2、3、4、5、6、7、10、11章)

selenium库的( WebDriver )有点儿像加载网站的浏览器,它不仅可以查找页面元素,而且可以与页面上的元素进行交互。每个Item Pipeline组件都是一个独立的Python类,该类中的( process_item() )方法必须实现。通过driver的get()方法可以将页面的内容加载到浏览器对象中,如果页面还没有加载完,此方法会一直阻塞等待。B、如果回调函数返回一个Request,则该对象会经过Scrapy处理,下载相应的内容,并调用设置的回调函数。

2023-06-18 17:28:28 4898 1

原创 解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫(期末重点题目)

Requests是在urllib的基础上进行了高度的封装,它不仅继承了urllib的所有特性,而且还支持一些其他的特性。聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。通用爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

2023-06-15 19:52:48 3488 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除