Python 爬虫入门实战

最新推荐文章于 2023-12-28 13:55:31 发布

Python3.7

最新推荐文章于 2023-12-28 13:55:31 发布

阅读量180

点赞数

分类专栏：爬虫文章标签： Python 爬虫入门

本文链接：https://blog.csdn.net/weixin_45722061/article/details/102561065

版权

1. 前言

首先自我介绍一下，我是一个做 Java 的开发人员，从今年下半年开始，一直在各大技术博客网站发表自己的一些技术文章，差不多有几个月了，之前在 cnblog 博客园加了网站统计代码，看到每天的访问量逐渐多了起来，国庆正好事情不多，就想着写一个爬虫，看下具体阅读量增加了多少，这也就成了本文的由来。

2. 技术选型

爬虫这个功能，我个人理解是什么语言都能写的，只要能正常发送 HTTP 请求，将响应回来的静态页面模版 HTML 上把我们所需要的数据提取出来就可以了，原理很简单，这个东西当然可以手动去统计收集，但是网络平台毕竟还是很多的，还是画点时间，写个爬虫把数据爬取下来，存到数据库里，然后写一个统计报表的 SQL 语句比较方便，后续如果有时间的话，我会写一个简单的前后端分离的报表样例分享出来。

网上现在 Python 爬虫的课程非常的火爆，其实我心里也有点小九九，想玩点骚操作，不想用老本行去写这个爬虫，当然最后的事实是证明确实用 Python 写爬虫要比用 Java 来写爬虫要简单的多。

3. 环境准备

首先笔者的电脑是 Win10 的，Python 选用的是 3.7.4 ，貌似现在网上 Python3 的爬虫教程并不多，其中还是遇到不少的问题，下面也会分享给大家。

开发工具笔者选用的是 VSCode ，在这里推荐一下微软这个开源的产品，非常的轻量化，需要什么插件自己安装就好，不用的插件一律不要，自主性非常高，如果感觉搞不定的朋友可以选择 JetBrains 提供的 Pycharm ，分为社区版和付费版，一般而言，我们使用社区版足矣。Python入门到实践学习教程请加群

笔者这里直接新建了一个文件夹，创建了一个名为 spider-demo.py 的文件，这个就是我们一会要写的爬虫的文件了，可以给大家看下笔者的开发环境，如下：219539519零基础，进阶，欢迎加入

这其实是一个调试成功的截图，从下面打印的日志中可以看到，笔者这里抓取了三个平台的数据。

4. 数据库

笔者使用的数据是 Mysql 5.7.19 版本，数据库的字符集是使用的 utf8mb4 ，至于为什么使用 utf8mb4 而不是 utf8 ，各位百度一下吧，很多人讲的都比我讲的好，我简单说一句就是 Mysql 的 utf8 其实是一个假的 utf8 ，而后面增加的字符集 utf8mb4 才是真正的 utf8 。

而 Python 连接 Mysql 也是需要驱动的，和在 Java 中连接数据库需要驱动一样，这里使用的是 pymysql

最低0.47元/天解锁文章

Python3.7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫入门实战

1. 前言首先自我介绍一下，我是一个做 Java 的开发人员，从今年下半年开始，一直在各大技术博客网站发表自己的一些技术文章，差不多有几个月了，之前在 cnblog 博客园加了网站统计代码，看到每天的访问量逐渐多了起来，国庆正好事情不多，就想着写一个爬虫，看下具体阅读量增加了多少，这也就成了本文的由来。2. 技术选型爬虫这个功能，我个人理解是什么语言都能写的，只要...
复制链接

扫一扫