Python-爬虫(一):最简单的爬虫思路

爬虫这种东西
并不是一种简单的算法
谨以此总结隔空打脸两年前的我

一、爬虫背景知识

1、爬虫是什么

按照一定规则从互联网上抓取信息的程序
其他详见大佬公众号的链接,【裸睡的猪】

2、HTTP & HTTPS详解

什么是互联网?
什么是网络协议?
这一部分算是**【计算机网络】**的知识
继续放链接有空总结
1、【HTTP详解】
2、【HTTPS原理详解】 (原文链接删除,以后自学)

3、网页结构

HTML语法,以及界面设计,还有html标签、数据、css样式、js等等什么的
东西很多,除了这个外必须自学一些别的
讲不定学个爬虫顺便还会设计网页了
平时有什么看到的也需要记录下来
【网页结构简介】

4、爬虫是否违法

爬虫法
爬虫相关新闻还是挺多的
XD

5、浏览器的开发者工具

这个
真的有时候搞不懂啊
需要系统了解一下Google Chrome的使用

二、简单静态网页爬取

1、最最最简单的版本

import requests

def spider_douban():
    # 获取url
    url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"

    # 爬取数据
    try:
        r = requests.get(url)
        # get:通过URL参数,获取网页源码
        r.raise_for_status() 
        # raise_for_status 手动判断网络连接状态,连接错误(404...)转入except子句
        print(r.text)
    except:
        print("Error!\n")

if __name__ == "__main__":
    spider_douban()
  • URL(Uniform Resource Locator,统一资源定位符):WWW的统一资源定位标志,或者说唯一的网络地址)

    protocol:// hostname[ :port] / path / [;parameters][?query]#fragment

2、带请求头

import requests

def spider_douban():
    # 获取url
    url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"
    #设置头
    header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' }
    # 爬取数据
    try:
        r = requests.get(url,headers = header)
        # get:通过URL参数,获取网页源码
        r.raise_for_status() 
        # raise_for_status 手动判断网络连接状态,连接错误(404...)转入except子句
        print(r.text)
    except:
        print("Error!\n")

if __name__ == "__main__":
    spider_douban()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值