python | 尝试爬虫 xpath

整理一下自己的笔记
是根据b站up主 大大的小番茄 的教程来看的,非常适合很新很新的新手。

首先要明白爬虫的思路请求获取网页IP,根据已知的IP获取服务器返回的HTML找到HTML里面自己需要的信息

第一部分:HTML
大部分网页的构成分为三个部分:HTML(相当于骨架)、CSS(定义了外观)、JScript(表示功能)。爬虫主要针对的是HTML

看到的HTML内容的<>称为标签。
常见的标签如下:

标签 用法或意义
<html><html/> 中间的元素是网页
<body></body> 用户可见内容
<div> 框架
<p> 段落
<li> 列表
<img> 图片
<a href ></a> 超链接
  • 其中一些成对出现的标签称为闭合标签,比如<head> <head/> <div><div/>,也就是<></>成对出现的。
  • 另外一些称为自闭和标签,比如 <input >,只有一个尖括号,没有与之对应的。

标签里都有一些标签的属性,比如id、style、class等等,标签拥有层级关系。
属性标签的层级关系
一个例子:
txtweb
PS.关于URL
简而言之,就是网址。
http协议——端口80
https协议——端口443
这部分视频非常详细地简单阐述了一下,感兴趣或者有需要的可以看看。

第二部分:python中模拟请求的库
要注意的是:python访问HTML的时候会被拒绝,因此需要“伪装”成一个用户在浏览,因此需要修改头参数(user-agent),还要注意refer、cookie,这部分直接复制粘贴相应的代码即可
参数
requests库

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值