爬虫学习-初次上路

最新推荐文章于 2024-09-10 13:01:50 发布

Micheal Zhu

最新推荐文章于 2024-09-10 13:01:50 发布

阅读量172

点赞数

文章标签：数据挖掘 python

本文链接：https://blog.csdn.net/weixin_52271624/article/details/109909372

版权

最近在参加一个比赛的时候，发现大量的数据支持是数学模型的基础。而大量的数据则是通过网络的途径。其中一个比较方便便捷的方法是爬虫。这篇文章就是我关于爬虫的学习笔记。通过很多网上的大佬和资料总结了自己的学习心得。

爬虫的实现我是使用python来实现的。但是在了解如何敲代码前。我是先观察了关于网页的前端代码。是这个样子。
在这里插入图片描述
最显著的就是顶端的HTML。HTML的定义就是超文本标记语言，主要用于创建web，创建网站时候所用的语言。当然里面也有涉及css和js两种语言。

在我理解中，所谓的爬虫就是把我们所看到的网站的图片或者语言给抓取下来。比如在这里你想要获取一个图片。那么你就需要找到它对应的代码。如图所示
在这里插入图片描述

对应下来这个黑色的图片就是黑色方块包起来的代码。那么刚刚做到这一点的步骤就是先按F12（windows操作系统），然后选择左上角的鼠标小标签
在这里插入图片描述
。拖动鼠标点击你想选择抓取的图片或一个文字。相对应得下面代码部分就会告诉这个部分对应的代码是哪里了。

之前再看别人关于网页代码的博客的时候，说到关于动态网页和静态网页的区别。但我看了很多，也爬了一些说是动态网页的网站和问了其他人。发现其实你能在这个网页看到的东西，任何数据或者是图片，都会包含在你按完F12后出来的代码里面。所以，在做最起初的爬虫技术的时候，其实不用太需要考虑关于动态与静态网页的区别。

Python设置：

再写爬虫之前，我自己用的是PYcharm这个IDE。如果没有就可以在度娘上搜官网就可以下载了。然后下载完之后，就需要下载一些python自带的安装包（虽然自带，但是还要自己下载的）。主要的下载办法就是CMD（windows操作系统）。打开命令行后，输入

pip install + “某个安装包的名字”就可以了

这里我建议大家直接一次性下完后期可能都需要的安装包就好了。一般包含这些

大部分直接把import后面的英文输入到pip
install后面即可。Cmd就会有下载的过程出现。如果cmd提示你没有该安装包。就可以上网搜比如：python
requests在那个安装包里面。然后再把那个安装包放入pip install 后面即可。

安装包放入pip install 后面即可。

这就是再写代码之前该做的事情了。后面就会慢慢去讲该怎么去敲代码了。

Micheal Zhu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习-初次上路

最近在参加一个比赛的时候，发现大量的数据支持是数学模型的基础。而大量的数据则是通过网络的途径。其中一个比较方便便捷的方法是爬虫。这篇文章就是我关于爬虫的学习笔记。通过很多网上的大佬和资料总结了自己的学习心得。爬虫的实现我是使用python来实现的。但是在了解如何敲代码前。我是先观察了关于网页的前端代码。是这个样子。最显著的就是顶端的HTML。HTML的定义就是超文本标记语言，主要用于创建web，创建网站时候所用的语言。当然里面也有涉及css和js两种语言。在我理解中，所谓的爬虫就是把我们所看到的网站
复制链接

扫一扫