Python-爬虫（一）：最简单的爬虫思路

最新推荐文章于 2024-07-12 17:01:23 发布

桥苯环萘我老婆

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量341

点赞数

分类专栏： Data Science 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44194088/article/details/102706586

版权

Data Science 专栏收录该内容

16 篇文章 12 订阅

订阅专栏

Python-爬虫（一）：最简单的爬虫思路

一、爬虫背景知识
二、简单静态网页爬取
- 1、最最最简单的版本
- 2、带请求头

爬虫这种东西
并不是一种简单的算法
谨以此总结隔空打脸两年前的我

一、爬虫背景知识

1、爬虫是什么

按照一定规则从互联网上抓取信息的程序
其他详见大佬公众号的链接，【裸睡的猪】

2、HTTP & HTTPS详解

什么是互联网？
什么是网络协议？
这一部分算是**【计算机网络】**的知识
继续放链接有空总结
1、【HTTP详解】
2、【HTTPS原理详解】 (原文链接删除，以后自学)

3、网页结构

HTML语法，以及界面设计，还有html标签、数据、css样式、js等等什么的
东西很多，除了这个外必须自学一些别的
讲不定学个爬虫顺便还会设计网页了
平时有什么看到的也需要记录下来
【网页结构简介】

4、爬虫是否违法

爬虫法
爬虫相关新闻还是挺多的
XD

5、浏览器的开发者工具

这个
真的有时候搞不懂啊
需要系统了解一下Google Chrome的使用

二、简单静态网页爬取

1、最最最简单的版本

import requests

def spider_douban():
    # 获取url
    url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"

    # 爬取数据
    try:
        r = requests.get(url)
        # get：通过URL参数，获取网页源码
        r.raise_for_status() 
        # raise_for_status 手动判断网络连接状态，连接错误（404...）转入except子句
        print(r.text)
    except:
        print("Error!\n")

if __name__ == "__main__":
    spider_douban()

URL（Uniform Resource Locator,统一资源定位符）：WWW的统一资源定位标志，或者说唯一的网络地址)

protocol:// hostname[ :port] / path / [;parameters][?query]#fragment

2、带请求头

import requests

def spider_douban():
    # 获取url
    url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"
    #设置头
    header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' }
    # 爬取数据
    try:
        r = requests.get(url,headers = header)
        # get：通过URL参数，获取网页源码
        r.raise_for_status() 
        # raise_for_status 手动判断网络连接状态，连接错误（404...）转入except子句
        print(r.text)
    except:
        print("Error!\n")

if __name__ == "__main__":
    spider_douban()