Python爬虫入门笔记（1）

最新推荐文章于 2024-07-21 22:27:18 发布

weixin_45019064

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量144

点赞数 1

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_45019064/article/details/107145803

版权

学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.首先要在pycharm中准备好几个库（事先下载好）
下载方法：在这里插入图片描述在pycharm按照相应的顺序打开到相应的界面，点击3处的加号跳出到4出的搜索框，然后搜索需要的库，点击左下角的安装，即可安装所需的库。
2.在项目页面调用相应的库

from bs4 import BeautifulSoup
#网页解析，获取数据
import re
#正则表达式，进行文字配
import urllib.request,urllib.error
#制定URL，获取网络数据
import xlwt
#进行Excel操作
import sqlite3
#进行SQLIT数据库操作

3.注释好相应步骤的流程方便确定思路：

【主函数部分】
（1）爬取目标网页（2）逐步解析（3）保存数据
（应用到相应的函数，直接调用就可以了）

【爬取目标网页】
在爬取网页的开始，要防止网站的反爬系统，应该设置一个马甲，让网站以为你是一个浏览器。这时候应该建立一个“头”

headers = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;"
                        "Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome "
                        "/ 78.0.3904.116Safari / 537.36"
    }

头中的内容就是浏览器中F12打开：
user-agent: 中的内容（本来想上传图片，但是由于网络原因，传不上来了）

为了函数的健壮性，try：except：务必加上

 try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except Exception as result :
        print("未知错误 %s"%result)

（今天就先整理这一点，明天接着把第一部分更完）

weixin_45019064

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门笔记（1）

1.首先要在pycharm中准备好几个库（事先下载好）下载方法：在pycharm按照相应的顺序打开到相应的界面，点击3处的加号跳出到4出的搜索框，然后搜索需要的库，点击左下角的安装，即可安装所需的库。2.在项目页面调用相应的库from bs4 import BeautifulSoup#网页解析，获取数据import re#正则表达式，进行文字配import urllib.request,urllib.error#制定URL，获取网络数据import xlwt#进行Excel操作impo
复制链接

扫一扫