Python爬虫小白

最新推荐文章于 2023-05-30 09:25:19 发布

rwby_guo

最新推荐文章于 2023-05-30 09:25:19 发布

阅读量351

点赞数

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/zhiyan6415/article/details/115657714

版权

Python爬虫小白

萌新刚学完python不久，就试着做了一下python爬虫，看看学的怎么样。

python爬虫，首先弄懂爬虫是什么，分几步。
爬虫，按我的理解就是去网页爬信息；
所以主要分为三步：
1.找到想要爬的网站；
2.爬数据；
3.保存爬的数据。
然后你要知道用python爬虫所要用的库文件。其实我觉得学习python，就是在掌握基本的语法之后，去了解对应的库文件就好。
与python爬虫有关的库文件有

import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import ssl

主要是以上几个库文件，其中from urllib import request 和 requests 这两个库文件其实有点重叠，因为这两个库文件都有对应的爬网页的函数。另外，在爬的过程中，对得到的数据进行处理，可能还会用到string这个库。在这里我用到的库有

import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import string
import ssl

小伙伴们，不要看着这些库很多，不知道怎么办，其实这些库也是我在爬的过程不断了解到，然后加上去的，一开始我也不知道有这些库，但你慢慢做就会了解到了。

好开始进入正题。
首先第一步，得到爬的网站的网址
对于第一步，我首先设想的是假设我有一个文件，文件里面填满了我想要爬的网址，那么我该如何从文件中读取网址呢？这就要用到python中关于文件打开的函数及知识
代码如下：

#打开文件，并读数据
def OpenFile():
    with open('dd.txt', 'r', encoding = 'utf-16') as file:
        url_data = file.readlines(

最低0.47元/天解锁文章

rwby_guo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫小白

Python爬虫小白萌新刚学完python不久，就试着做了一下python爬虫，看看学的怎么样。python爬虫，首先弄懂爬虫是什么，分几步。爬虫，按我的理解就是去网页爬信息；所以主要分为三步：1.找到想要爬的网站；2.爬数据；3.保存爬的数据。然后你要知道用python爬虫所要用的库文件。其实我觉得学习python，就是在掌握基本的语法之后，去了解对应的库文件就好。与python爬虫有关的库文件有import requestsimport bs4from bs4 import B
复制链接

扫一扫