Python爬虫入门笔记(1)

1.首先要在pycharm中准备好几个库(事先下载好)
下载方法:在这里插入图片描述在pycharm按照相应的顺序打开到相应的界面,点击3处的加号跳出到4出的搜索框,然后搜索需要的库,点击左下角的安装,即可安装所需的库。
2.在项目页面调用相应的库

from bs4 import BeautifulSoup
#网页解析,获取数据
import re
#正则表达式,进行文字配
import urllib.request,urllib.error
#制定URL,获取网络数据
import xlwt
#进行Excel操作
import sqlite3
#进行SQLIT数据库操作

3.注释好相应步骤的流程方便确定思路:

【主函数部分】
(1)爬取目标网页(2)逐步解析(3)保存数据
(应用到相应的函数,直接调用就可以了)

【爬取目标网页】
在爬取网页的开始,要防止网站的反爬系统,应该设置一个马甲,让网站以为你是一个浏览器。这时候应该建立一个“头”

headers = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;"
                        "Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome "
                        "/ 78.0.3904.116Safari / 537.36"
    }

头中的内容就是浏览器中F12打开:
user-agent: 中的内容(本来想上传图片,但是由于网络原因,传不上来了)

为了函数的健壮性,try:except:务必加上

 try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except Exception as result :
        print("未知错误 %s"%result)

(今天就先整理这一点,明天接着把第一部分更完)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值