十分抱歉,我因为过寒假没有及时更新,不过我会很快补回来的。
好,现在进入正题:
今天我们来爬一个网站的源代码,随便哪个网站,只要你知道网站网址即可。
开干!
一、环境搭建
俗话说:“磨刀不误砍柴工。”,木有一些扩展库,怎能去写爬虫呢?
1、首先,按下“WIN+R”, 打开“运行”
2、然后,输入“cmd”
3、点“确定”, 打开一个CUI
4、输入以下代码, 点“Enter”:
pip install requests
5、等待下载……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
6、再输入以下代码, 点“Enter”:
pip install bs4
7、再次等待……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
二、编写代码
1、打开编辑器
2、输入以下代码
import requests
html = requests.get("https://www.bilibili.com").read().encode('utf-8')
print(html)
3、运行
三、讲解
首先第一行:
import requests
导入requests模块,requests,就是联网的模块。
然后第二行,也是程序的中心:
html = requests.get("https://www.bilibili.com").read().encode('utf-8')
访问bilibili,并且读出源代码,转换成utf-8格式后存入html变量。
第三行就输出。
当然网址换成其他也行!
最后,祝大家新年快乐(*^▽^*)!