爬虫学习-初次上路

最近在参加一个比赛的时候,发现大量的数据支持是数学模型的基础。而大量的数据则是通过网络的途径。其中一个比较方便便捷的方法是爬虫。这篇文章就是我关于爬虫的学习笔记。通过很多网上的大佬和资料总结了自己的学习心得。

爬虫的实现我是使用python来实现的。但是在了解如何敲代码前。我是先观察了关于网页的前端代码。是这个样子。
在这里插入图片描述
最显著的就是顶端的HTML。HTML的定义就是超文本标记语言,主要用于创建web,创建网站时候所用的语言。当然里面也有涉及css和js两种语言。

在我理解中,所谓的爬虫就是把我们所看到的网站的图片或者语言给抓取下来。比如在这里你想要获取一个图片。那么你就需要找到它对应的代码。如图所示
在这里插入图片描述

对应下来这个黑色的图片就是黑色方块包起来的代码。那么刚刚做到这一点的步骤就是先按F12(windows操作系统),然后选择左上角的鼠标小标签
在这里插入图片描述
。拖动鼠标点击你想选择抓取的图片或一个文字。相对应得下面代码部分就会告诉这个部分对应的代码是哪里了。

之前再看别人关于网页代码的博客的时候,说到关于动态网页和静态网页的区别。但我看了很多,也爬了一些说是动态网页的网站和问了其他人。发现其实你能在这个网页看到的东西,任何数据或者是图片,都会包含在你按完F12后出来的代码里面。所以,在做最起初的爬虫技术的时候,其实不用太需要考虑关于动态与静态网页的区别。

Python设置:

再写爬虫之前,我自己用的是PYcharm这个IDE。如果没有就可以在度娘上搜官网就可以下载了。然后下载完之后,就需要下载一些python自带的安装包(虽然自带,但是还要自己下载的)。主要的下载办法就是CMD(windows操作系统)。打开命令行后,输入

pip install + “某个安装包的名字”就可以了
在这里插入图片描述
这里我建议大家直接一次性下完后期可能都需要的安装包就好了。一般包含这些
在这里插入图片描述
大部分直接把import后面的英文输入到pip
install后面即可。Cmd就会有下载的过程出现。如果cmd提示你没有该安装包。就可以上网搜比如:python
requests在那个安装包里面。然后再把那个安装包放入pip install 后面即可。

安装包放入pip install 后面即可。

这就是再写代码之前该做的事情了。后面就会慢慢去讲该怎么去敲代码了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值