Python爬虫入门学习--(单线程爬虫)

最新推荐文章于 2024-07-12 17:01:23 发布

WUST_XIAO

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量408

点赞数

分类专栏： Python学习文章标签：爬虫 python

本文链接：https://blog.csdn.net/xr469786706/article/details/54948199

版权

Python学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

单线程爬虫最基本原理:使用Requests获取网页源代码,再使用正则表达式匹配出感兴趣的内容

第一个网页爬虫—Requests获取网页源代码

直接获取源代码
修改http头获取源代码

不需要header

#-*-coding:utf8-*-
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text

需要header

#-*-coding:utf8-*-

import requests
import re
import sys

reload(sys)
sys.setdefaultencoding("gb18030")
type = sys.getfilesystemencoding()

# headers = {}
html = requests.get('http://jp.tingroom.com/yuedu/yd300p/')
# html = requests.get('http://jp.tingroom.com/yuedu/yd300p/',headers = headers)

html.encoding = 'utf-8'
# print html.text

title = re.findall('color:#666666;">(.*?)</span>',html.text,re.S)
for each in title:
   print each

chinese = re.findall('color: #039;">(.*?)</a>',html.text,re.S)
for each in chinese:
    print each

怎么样获取header

在网页中点击审查元素,然后点击network,然后再刷新网页,随便点一个,再点击header,往下翻就可以看到

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WUST_XIAO

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 单线程与多线程爬虫

zyxyzz的博客

10-22

2453

帮别人写爬虫，先是单线程，太慢，改了多线程 1.单线程 import urllib import urllib.request import requests import xlwt import re import string def set_style(name,height,bold=False): style = xlwt.XFStyle() # 初始化样式 font

Python爬虫之<单线程爬虫>

闪星的博客

08-14

1494

一.直接获取源代码>>> import requests >>> url='http://www.wutnews.net/' >>> html=requests.get(url) >>> print html.content <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xht

参与评论您还未登录，请先登录后发表或查看评论

32个Python爬虫项目让你一次吃到撑

最新发布

房东的猫的博客

07-12

4万+

定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历所有节点的情况，如生成树、迷宫搜索。目标节点较深，且分支较多时。在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。

Python爬虫入门学习（二）

weixin_42855218的博客

04-24

619

Python

python爬取网页的代码_python爬虫入门篇------爬取网页源代码

weixin_39869733的博客

11-20

604

python爬虫入门篇------爬取网页源代码2019年6月16日来源: WangF0需求:爬取用户输入网站的源代码,并导入到本地文件中.实现思路:利用python的urllib模块,打开网址读取源代码,然后在本地创建文件,将读取的代码写入.import urllib.requestdef grab(url):# 打开传入的网址resp = urllib.request.urlopen(url)...

python 爬虫入门实例.docx

04-25

5. **多线程/异步处理**: 对于大规模数据抓取任务，简单的单线程爬虫往往效率低下。采用多线程或多进程技术可以显著提高爬取速度。更进一步，使用异步IO（如`asyncio`库）可以实现非阻塞式的高效数据抓取。 #### 三...

Python爬虫入门基础知识汇总.zip

06-23

总之，Python爬虫入门涉及HTTP协议、HTML解析、数据存储、反爬策略等多个方面。通过学习这些基础知识，你可以构建起自己的爬虫项目，从互联网的海量信息中获取有价值的数据。不过，爬虫开发过程中应尊重版权，遵守...

python单线程爬虫源码加初级教程.rar

01-29

Python单线程爬虫是初学者入门网络爬虫技术的一个好起点。在这个“python单线程爬虫源码加初级教程.rar”压缩包中，包含了一个初级教程和完整的Python源码，非常适合想要学习爬虫技术的新手。我们将深入探讨以下几...

python爬虫模拟点击和输入,python爬虫实战--selenium模拟登录并自动点击

weixin_32921457的博客

03-26

2540

爬虫实战项目。爬虫利器：selenium的使用。任务介绍最近刚刚注册了某个网站：HDHome，该站有新手考核任务，其中有一项是需要达到魔力值5000。在魔力值获取方式中，我们看到这一项：“说谢谢 = 0.5个魔力值”，而网站存活种子数量达到16000+，也就意味着对每个种子说一下谢谢，轻松达到8000+的魔力值，于是，这个项目应运而生。实现思路：获取种子的页面，在每个页面中找到说谢谢的按钮，并点击...

Python爬虫入门学习--(向网页提交数据)

肖睿的博客

02-09

2356

#-*-coding:utf8-*-import requests import re # url = 'https://www.crowdfunder.com/browse/deals' url = 'https://www.crowdfunder.com/browse/deals&template=false' # html = requests.get(url).text # print ht

Python 的 GUI 开发

肖睿的博客

07-22

1124

这几天在学习python的时候学到了python可以设计图形界面，于是就准备学习一下，tkinter是python的内置模块接口1，什么是tkinter?Tkinter模块("Tk 接口")是Python的标准Tk GUI工具包的接口.Tk和Tkinter可以在大多数的Unix平台下使用,同样可以应用在Windows和Macintosh系统里.Tk8.0的后续版本可以实现本地窗口风格,并良好地运行在

Python网络爬虫与信息提取(三)：网络爬虫之实战

肖睿的博客

10-03

1081

Re(正则表达式)库入门regular expression = regex = RE 是一种通用的字符串表达框架,用来简洁表达一组字符串的表达式,也可用来判断某字符串的特征归属正则表达式的语法常用操作符实例 Re库的基本使用正则表达式的表示类型为raw string类型(原生字符串类型),表示为r’text’ Re库主要功能函数功能函数 re.search(pattern,st

Python/Django 生成二维码

肖睿的博客

10-04

659

1.1 用Python来生成二维码很简单，可以看 qrcode 这个包：pip install qrcodeqrcode 依赖 Image 这个包：pip install Image1.2 安装后就可以使用了，这个程序带了一个 qr 命令：qr 'http://www.ziqiangxuetang.com' > test.png1.3 下面我们看一下如何在代码中使用import qrcodeim

Python网络爬虫与信息提取(一)

肖睿的博客

10-03

474

Requests库的七个主要方法:get方法r = requests.get(url):右边构造一个向服务器请求资源的Requests对象,左边返回一个包含服务器资源的Response对象给r 完整参数:requests.get(url,params=None,**kwargs),实则由request方法封装 Response对象的五个属性:爬取网页的通用代码框架Requests库爬取网页会遇到异常

Python爬虫：入门与实战抓取网易云音乐热评

2. **多线程并发技术**：Python的多线程或多进程模块（如threading或multiprocessing）允许同时发送多个请求，提高爬取速度，避免因单线程请求导致的服务器压力过大。 3. **数据交换技术**：解析网页中的HTML结构，...