Python爬虫小白
萌新刚学完python不久,就试着做了一下python爬虫,看看学的怎么样。
python爬虫,首先弄懂爬虫是什么,分几步。
爬虫,按我的理解就是去网页爬信息;
所以主要分为三步:
1.找到想要爬的网站;
2.爬数据;
3.保存爬的数据。
然后你要知道用python爬虫所要用的库文件。其实我觉得学习python,就是在掌握基本的语法之后,去了解对应的库文件就好。
与python爬虫有关的库文件有
import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import ssl
主要是以上几个库文件,其中from urllib import request 和 requests 这两个库文件其实有点重叠,因为这两个库文件都有对应的爬网页的函数。另外,在爬的过程中,对得到的数据进行处理,可能还会用到string这个库。在这里我用到的库有
import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import string
import ssl
小伙伴们,不要看着这些库很多,不知道怎么办,其实这些库也是我在爬的过程不断了解到,然后加上去的,一开始我也不知道有这些库,但你慢慢做就会了解到了。
好开始进入正题。
首先第一步,得到爬的网站的网址
对于第一步,我首先设想的是假设我有一个文件,文件里面填满了我想要爬的网址,那么我该如何从文件中读取网址呢?这就要用到python中关于文件打开的函数及知识
代码如下:
#打开文件,并读数据
def OpenFile():
with open('dd.txt', 'r', encoding = 'utf-16') as file:
url_data = file.readlines(