Python爬虫实战(一)

最新推荐文章于 2023-03-28 10:30:28 发布

一穷二白到年薪百万

最新推荐文章于 2023-03-28 10:30:28 发布

阅读量412

点赞数

分类专栏：爬虫专题文章标签： python

本文链接：https://blog.csdn.net/zfhsfdhdfajhsr/article/details/108972646

版权

爬虫专题专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言
最近要做基于某一个数据库的数据分析，所以用到爬虫技术对数据库的信息进行爬取。本来想直接手动下载，不想增加学习成本，现在想想还是太年轻了几千页的数据手动下载到啥时候啊，而且数据格式自己还得整合时间成本那是相当的高。最后还是用了爬虫，通过这个工作我自己总结了：能用技术解决的就不用人工。

爬虫方法简介
关于爬虫的各种基本概念很多博主都讲的很详细，在此我就不再赘述（文末我会加几个不错的博主的链接，感兴趣的可以自己查看）。我这里想说的是自己关于爬虫项目的理解，总的来讲爬虫主要分为两块：1）基于request模块的方法；2）基于scrapy框架的方法。就我自己的感受而言两种方法各有各的特点，基于框架的方法就好像是一辆汽车不需要驾驶员懂得汽车内部的各种构造会开就行了（当然想要成为一名资深老司机不仅需要会开车还需要会修车），而基于request模块的方法更像是自己搭积木实现数据的爬取，数据解析，数据存储等。
就新手而言个人推荐使用request模块进行数据爬取，因为这样对爬虫了解的更加透彻。不要觉得request的功能太弱框架实现的它都能做到，而且程序有问题的话能使用request方法能够直接定位问题解决，不像scrapy框架一样报错之后不知所措（改错学习成本太高）。
下面将从代码层面对这两种爬取方式进行说明：

基于request的爬取

import requests

if __name__ == '__main__':
    "request函数的主要作用模拟浏览器发送请求"
    # step_1：指定url
    url = 'http://www.tcmip.cn/ETCM/index.php/Home/Index/Prescriptions_All.html?getType=dis'
    # step_2:：发起请求-
    # get方法会返回一个响应对象
    response = requests.get(url=url)
    # step_3：获取相应数据.text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step_4：持久化存储
    with open('./sougou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print("爬取数据结束")

正常我们获取数据的方式是通过浏览器访问网页获取我们需要的信息，request方法就是模拟了浏览器发送请求的过程，从网页获取相关数据。简单讲实现数据爬取需要四个步骤，指定url、发起请求、获取数据、持久化存储。当然这只是理论的步骤，真正的获取所需要的数据在步骤3-4之间还需要数据解析和精确定位数据等方法，这一部分内容在实战二中讲解。
2. 基于scrapy的爬取
未完待续。。。。。。。

一穷二白到年薪百万

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫实战(一)

前言最近要做基于某一个数据库的数据分析，所以用到爬虫技术对数据库的信息进行爬取。本来想直接手动下载，不想学习新的知识增加学习成本，现在想想还是太年轻了几千页的数据手动下载到啥时候而且数据格式自己还得整合时间成本那是相当的高。最后还是用了爬虫，通过这个工作我自己总结了：能用技术解决的就不用人工原始的方法。爬虫方法简介关于爬虫的各种基本的概念知识很多博主都讲的很详细，在此我就不再赘述（文末我会加几个不错的博主的链接，感兴趣的可以自己查看）。我这里想说的是自己关于爬虫项目的理解，总的来讲爬虫主要分为
复制链接

扫一扫