今天来看一个Python爬虫基础知识点,虽然是基础,但尤为重要——XPath。
我们拿中国工标网举例。
可以看到,整个表格的数据都在<thead>标签种,那么我们就可以通过XPath来获取,如下具体操作:
首先,需要安装requests和lxml库。在命令行中输入以下命令进行安装:
接下来,导入requests和lxml库,并设置请求头信息。这里我们使用User-Agent来模拟浏览器访问,以避免被网站识别为爬虫
然后,我们使用requests库的get方法来获取网页内容。这里我们以爬取一个分类列表为例,通过循环遍历不同的页面
接着,使用lxml库的HTML方法来解析网页内容,并使用xpath方法来提取我们需要的数据。
最后,我们遍历提取到的数据,并将结果打印出来。