一、文本
右击选择”检查“,在network-js里以0.json开头的网络请求为单页文本请求。在每一页请求返回的response的json中,属性c存储了每一行的文字。因此,将所有页的url请求一遍,且每一页解析出json里属性c对应的每一行文本,即为整个文档内容。
代码
import re # 正则表达式
import requests
#0.json对应的url
urls=["",
"",
""
]
headers = {
"user-agent": "XXX" #XXX改为你自己的user-agent
}
count=0
for url in urls:
count=count+1
f = open(r'../baiduword/'+str(count)+'.doc', 'a+')
res=requests.get(url=url,headers=headers)
res.encoding = "unicode_escape"
res_list=re.findall('"c":"(.*?)","p"',res.text)
for raw in res_list:
f.write(str(raw))
结果
每个文档存储一页。