安装setuptools(安装包,需要解压)及pip
在百度上搜索
进入pypi的第三方模块组件
(开源的网站:github.com)
在 cd到setuptools安装的目录下
输入python setup.py install
在本地用户上创建一个文件夹为pip文件夹
在文件夹里创建pip.ini
pip.ini写入(需要跨网站下载源,使用阿里云下载更快,配置阿里云源):
[global]
index-url=https://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn
安装requests命令(cmd下全局调用)
C:\Users\Lenovo>pip install beautifulsoup4==4.9.3(或者pip 模块名称)
(局部调用)
在这里插入图片描述
这样就配置成功了。
pypi上有许多解释模块的用法和用法。(英语不好的也可以翻译成中文)
requests.get(抓取
)
import requests
url='https://www.csdn.net/'
a=requests.get(url)#获取网页请求
#print(type(a))#查看类型
#print(a.status_code)#查看请求状态200为正常,才能抓取网页内容
#print(a.text)#获取网页内容二进制表示
#print(a.content)#获取网页内容全部文本表示
#print(a.headers)#头部
print(a.cookies)
练习(二)
import requests
'''构建一个函数
更改头的标题
实现网页抓取
抓取的内容写入文档
'''
url='https://www.csdn.net/'
def ask():
headers = {'user-agent': 'my-app/0.0.1'} # 修改头的标题参数
r=requests.get(url,headers=headers)
print(r)
print('*'*20)
t=print(r.text)
return t
if __name__ == '__main__':
wl=ask()
练习(二)
import requests
'''构建一个类
更改头的标题
实现网页抓取
抓取的内容写入文档
'''
url = 'https://www.csdn.net/'
class Dxinag():
def __next__(self,url):
self.url=url
def header(self):# 修改头的标题参数
headers = {'user-agent': 'my-app/0.0.1'}
t=requests.get(url, headers=headers)
return t
def zhuqu(self):#实现网页抓取
s=requests.get(url)
m=s.text
return m
if __name__ == '__main__':
a=Dxinag()
print(a.header())
print(a.zhuqu())
有空学习
学习一些HTTP的知识
htlm的相关知识