解决sklearn数据集20newsgroups()下载太慢的问题

最新推荐文章于 2023-12-14 15:50:55 发布

ly_不忘初心

最新推荐文章于 2023-12-14 15:50:55 发布

阅读量3.2k

点赞数 6

分类专栏：机器学习

原文链接：https://www.malaoshi.top/show_1EF3H2Yhz1Nk.html

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

问题描述:

在我使用朴素贝叶斯算法对sklearn数据集fetch_20newsgroups()进行文本分类时，发现一直显示在下载，于是就搜了一下解决办法。总结如下：

1.手动下载数据集
下载链接：20Newsgroups/20news-bydate.tar.gz
下载完成后修改文件名为：20newsbydate.tar.gz

2.放在指定目录下
放在：C:\User\登录名\scikit_learn_data文件下

3.修改sklearn的数据集.py文件
找到D:\Python37\Lib\site-packages\sklearn\datasets目录下，打开twenty_newsgroups.py文件，该数据集主要通过这个包来在线下载，打开后找到download_20newsgroups()这个函数，注释以下代码：

logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)
archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)

然后在下方添加一下代码：

 archive_path = os.path.join(target_dir, r'20newsbydate.tar.gz')

注意：文件名与第1步的文件名要相同

4.运行

fetch_20newsgroups会自动解压20newsbydate.tar.gz
生成缓存文件20news-bydate.pkz

操作成功后再运行程序则不需要再重新下载，说明已经成功下载。

转载出处：https://www.malaoshi.top/show_1EF3H2Yhz1Nk.html

ly_不忘初心

关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
解决sklearn数据集20newsgroups()下载太慢的问题

问题描述:在我使用朴素贝叶斯算法对sklearn数据集fetch_20newsgroups()进行文本分类时，发现一直显示在下载，于是就搜了一下解决办法。总结如下：1.手动下载数据集下载链接：20Newsgroups/20news-bydate.tar.gz下载完成后修改文件名为：20newsbydate.tar.gz2.放在指定目录下放在：C:\User\登录名\scikit_lea...
复制链接

扫一扫