目录
线程和进程大部分人估计都知道,但协程就不一定了。
一、进程
进程是操作系统分配资源和调度的基本单位,一个程序开始运行时,操作系统会给他分配一块独立的内存空间并分配一个PCB作为唯一标识。初始化内存空间后进程进入就绪态,PCB插入就绪队列。轮到该进程时,操作系统会给进程分配CPU时间片,让进程进入运行态。时间片用完后,重新返回就绪队列,等待下一次分配。如果运行途中,进程遇到了阻塞事件,就会让出CPU给其他就绪进程,自己则进入阻塞队列,待阻塞结束后,重新返回就绪队列。

特征:
- 动态性:进程是程序的一次执行过程,有生命期。
- 并发性:多个进程实体同存于内存中,能并发执行。
- 独立性:进程是资源分配的基本单位,拥有独立的内存空间和系统资源。
- 异步性:进程以各自独立、不可预知的速度向前推进。
- 结构特性:每个进程由程序段、数据段和一个进程控制块(PCB)三部分组成。
使用:
进程用的比较少,线程协程用的多,因为进程之间的切换需要的资源太多了,比较慢,而且因为内存独立而不好通信。
今天试试这个网站泰坦陨落2steam版新手常见问题解决方法汇总 新手入门指南_逗游网一个游戏攻略,我们要尝试获取每一页红框中的内容,总共9页。
先来看看数据在不在页面源代码中,使用 Ctrl+U进入页面源代码,再Ctrl+F查找文字内容。发现页面源代码里有,这表明内容非脚本生成的,少了一大截麻烦。
老样子,通过抓包找到请求,就知道了url和请求方法,根据p不同的取值(1~9)即可切换不同的页面。现在我们可以开始写代码了。
初始代码
先来个无并行的,只记录请求部分时间。最后结果存在word文档里面。之后只展示控制台输出,word输出没什么差别。
import time
from io import BytesIO
import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
from docx.shared import Inches, RGBColor
def out_word(bs_datas, out_path): # 将bs_datas内容保存,out_path为保存文件名
# 创建Word文档
doc = Document()
# 遍历HTML内容
for bs_data in bs_datas:
if bs_data is None:
continue
for section in bs_data.find_all('p'):
section_all = section.find_all() # 获取部分中所有元素
section_all.insert(0, section) # 列表第一个插入
section_text = section_all[-1].string # 最后一个应该是无嵌套的纯文本
if section_text is None or section_text.strip() == "": # 空的看看是不是图片
if section_all[-1].name == "img":
paragraph = doc.add_paragraph() # 添加一个新的段落
run = paragraph.add_run()
# 下载图片
img_url = section_all[-1]['src']
img_response = requests.get(img_url) # 下载图片
img_stream = BytesIO(img_response.content)
# 将图片添加到Word文档中
run.add_picture(img_stream, Inches(5)) # 调整图片宽度
else:
continue
else: # 有文本,写下来
paragraph = doc.add_paragraph() # 添加一个新的段落
run = paragraph.add_run('\t' + section_text.strip()) # 获取标签文本,前面空格
for part in section_all: # 遍历每个部分,给段落添加属性
if part.name == 'strong': # 粗体
run.bold = True # 设置为粗体
elif 'align' in part.attrs: # 有对齐方式,这估计只有图片有个居中对齐,不过都写上吧
align = part['align'].upper()
if align == 'LEFT':
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.LEFT
elif align == 'RIGHT':
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
elif align == 'CENTER':
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
elif align == 'JUSTIFY':
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.JUSTIFY
else:
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.LEFT
elif part.name == 'span' and 'style' in part.attrs: # 有颜色
style = part['style']
if style.startswith('color:'):
color_str = style.split(':')[1]
# 将颜色字符串转换为 RGB 分量
r, g, b = int(color_str[1:3], 16), int(color_str[3:5], 16), int(color_str[5:7], 16)