Python爬虫小白

Python爬虫小白


萌新刚学完python不久,就试着做了一下python爬虫,看看学的怎么样。

python爬虫,首先弄懂爬虫是什么,分几步。
爬虫,按我的理解就是去网页爬信息;
所以主要分为三步:
1.找到想要爬的网站;
2.爬数据;
3.保存爬的数据。
然后你要知道用python爬虫所要用的库文件。其实我觉得学习python,就是在掌握基本的语法之后,去了解对应的库文件就好。
与python爬虫有关的库文件有

import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import ssl

主要是以上几个库文件,其中from urllib import request 和 requests 这两个库文件其实有点重叠,因为这两个库文件都有对应的爬网页的函数。另外,在爬的过程中,对得到的数据进行处理,可能还会用到string这个库。在这里我用到的库有

import requests
import bs4
from bs4 import BeautifulSoup
import re
from urllib import request
import string
import ssl

小伙伴们,不要看着这些库很多,不知道怎么办,其实这些库也是我在爬的过程不断了解到,然后加上去的,一开始我也不知道有这些库,但你慢慢做就会了解到了。

好开始进入正题。
首先第一步,得到爬的网站的网址
对于第一步,我首先设想的是假设我有一个文件,文件里面填满了我想要爬的网址,那么我该如何从文件中读取网址呢?这就要用到python中关于文件打开的函数及知识
代码如下:

#打开文件,并读数据
def OpenFile():
    with open('dd.txt', 'r', encoding = 'utf-16') as file:
        url_data = file.readlines(
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值