2020-12-15

第15章 Python网络爬虫
1.爬虫简介
网页爬取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
2.爬取网页的基础知识-HTTP协议
3.HTML与JavaScript基础-网页结构
<1.网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。
<2.HTML是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现的。
❤️.常见的标签如下:
… 表示标记中间的元素是网页
… 表示用户可见的内容

表示框架

表示段落
  • 表示列表
    …表示图片

    表示标题
    表示超链接
    <4.CSS
    CSS 表示样式,<style type="text/css">表示下面引用一个 CSS,在 CSS 中定义了外观。
    <5. JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。
    4.爬虫的合法性
    5.爬取网页的urllib库
    <1.urllib库
    <2. 使用urllib库获取网页信息
    response对象的方法
    info()方法: 返回一个httplib.HTTPMessage对象。
    getcode()方法:返回HTTP状态码。如果是HTTP请求,200表示请求成功完成,404表示网址未找到。
    geturl():返回请求的url。
    6.爬取网页的requests库
    1. requests库概述
      简洁的处理HTTP请求的第三方库,建立在Python的urllib3库基础上,是对urllib3库的再封装。
    2. requests库解析
      requests库的requests.get()方法功能是网络爬虫和信息提交
      7.beautifulsoup4库
      <1.beautifulsoup4库概述
      beautifulsoup4库也称为bs4库或BeautifulSoup库
      <2. beautifulsoup4库的对象
      BeautifulSoup将HTML文档转换成一个树形结构,每个结点都是 对象,可以归纳为4种类型:Tag、NavigableString、BeautifulSoup、Comment。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值