爬虫学习
今天开始好好学习爬虫,主要参考书是《Python 网络爬虫权威指南》。记录一下学习过程
牛亚肖
这个作者很懒,什么都没留下…
展开
-
爬虫的目的是做什么
3、输入git clone 上面复制的网址,敲回车就可以了。1、登录上面的网站,复制网址。原创 2024-04-14 15:38:08 · 308 阅读 · 1 评论 -
解决“ImportError: DLL load failed while importing _rust: 找不到指定的程序的问题
2、网上有说法 将cryptography的版本改成低版本的,我开始尝试这个方法。不过还是写出来,第一种方法不好用的可以尝试。报错:ImportError: DLL load failed while importing _rust: 找不到指定的程序。1、点击crtl+alt+s打开设置 点击项目>解释器 选择3.11解释器。运行 scrapy startproject wikiSpider。经过尝试 可以更换Python解释器版本来解决。原创 2024-04-21 15:59:39 · 3180 阅读 · 0 评论 -
Python Pycharm创建虚拟环境
界面左侧选择Python Interpreter即可看到,当前的虚拟环境中使用的Python接收器来自当前虚拟环境而不是其实际安装目录,同时默认安装的包也只有pip与setuptools,这说明虚拟环境确实起到了隔离现实环境的作用。点选New environments using, 选择Virtualenv,选择项目存放位置与Python解释器的版本,即可创建一个虚拟环境,我们的项目都在此虚拟环境中操作。也就是说,虚拟环境中的包只在虚拟环境中有效,在现实环境安装的包在虚拟环境中也不可见。转载 2024-04-21 14:39:02 · 81 阅读 · 0 评论 -
urllib.parse 库详解
是 Python 标准库中用于处理 URL 的库。它提供了一系列函数和类,用于在 Python 程序中与网络交互。原创 2024-04-21 10:14:34 · 815 阅读 · 0 评论 -
urlparse()函数介绍
函数是Python标准库中的函数,用于解析URL字符串。它将URL字符串分解为各个组成部分,并返回一个包含这些部分的元组。函数接受一个URL字符串作为参数,并返回一个包含六个部分的元组。每个部分都是一个字符串。函数返回一个包含六个部分的元组。每个部分都是一个字符串。原创 2024-04-20 20:41:25 · 510 阅读 · 1 评论 -
Beautiful Soup 库介绍
Beautiful Soup 是一个功能强大、易于使用的 Python 库,可以帮助您轻松处理 HTML 或 XML 文档。如果您需要从网页中提取数据、分析文档结构或修改文档内容,那么 Beautiful Soup 将是您的最佳选择。Beautiful Soup 是一个用于解析和处理 HTML 或 XML 文档的 Python 库。它提供了一套简单易用的工具,可以帮助您从网页中提取数据、导航文档结构、修改文档内容等。原创 2024-04-20 18:29:21 · 972 阅读 · 0 评论 -
next_siblings()函数介绍
是一个 BeautifulSoup 库中的函数,用于在 HTML 或 XML 文档中查找当前节点之后的所有兄弟节点。它返回一个生成器对象,可以用于迭代获取当前节点之后的所有兄弟节点。这个函数对于在解析 HTML 或 XML 文档时查找特定节点之后的相关内容非常有用。标签后的所有兄弟节点,即第二个和第三个。原创 2024-04-17 20:54:27 · 332 阅读 · 0 评论 -
BeautifulSoup对象的find_all()函数介绍
find_all()原创 2024-04-15 21:58:50 · 1299 阅读 · 0 评论 -
urllib.error 简介
这是由模块引发的所有错误的基本类。它包括无效 URL、连接错误和超时等错误。这是URLError的子类,表示 HTTP 通信期间发生的错误。它包括 404 未找到、401 未授权和 500 内部服务器错误等错误。这是URLError的子类,表示检索 URL 时发生的错误。它包括内容太短、证书错误和重定向循环等错误。这是URLError的子类,表示打开 URL 时发生的错误。它包括文件未找到、权限被拒绝和不支持的方案等错误。这是URLError的子类,表示使用 HTTP 代理时发生的错误。原创 2024-04-15 21:16:36 · 426 阅读 · 0 评论