Python 爬虫入门(一) Python和常用库的安装

# Python 爬虫入门(一)Python和常用库的安装

最近由于参加数据挖掘比赛,正好在研究爬虫,希望通过写博客来记录自己和团队一起学习爬虫的点点滴滴。

Python 安装

  1. 前言

    Python几乎可以在任何平台下运行,如我们所熟悉的:Windows/Unix/Linux/Macintosh。由于我的是Windows 10,因此这里只介绍在Windows操作系统中安装Python。

  2. 获取python安装包

    首先,我们需要访问Python的官方网站
    https://www.python.org/

    这里写图片描述

    点击其中的downloads

    有两个版本的Python可以下载,分别是Python2x和Python3x

    Short version: Python 2.x is legacy, Python 3.x is the present and future of the language
    

    官网中这样说道,Python2x是经典的,而3x是目前的,也是未来的。

    如果不是需要使用到仅仅只支持Python2x的某些库,我建议下载Python3x。

  3. 安装
    下载完成之后呢,我们进行安装。

    为了后续过程简单,我们使用默认的路径进行安装,并添加路径到环境变量。

    这里写图片描述

    等待安装完毕

    这里写图片描述

    这里写图片描述

    安装完成。

  4. 安装非标准Python库

    Python标准库中,用于网页数据采集的有urllib库,同样,有很多优秀的开源库,像BeautifulSoup库、Requests库等。
    接下来就介绍一些开源库的安装方法。

    Python库的安装可以通过下载源代码执行安装,也可以通过包管理器pip来安装。
    这里主要介绍通过pip包管理器的安装方法。

    • 安装BeautifulSoup库
      首先,我们选中开始菜单单击鼠标右键,打开命令提示符(管理员),然后输入以下命令:

      pip install bs4
      

      其中pip可以为pip、pip3、pip3.6等,根据包管理器的版本不同来选择,一般来说,使用pip即可,除非你电脑上装有多个不同版本的pip。

      如果你在安装Python的时候没有添加路径到环境变量或者环境变量丢失,你可能会遇到cmd提示你pip不是一个可执行程序。
      这个时候,你就需要将cmd路径指向pip所在目录。

      例如下图:
      这里写图片描述

      首先你需要将路径转移到pip目录,我的电脑上,pip所在文件路径是:
      C:\Users\Thinkpad\AppData\Local\Programs\Python\Python36-32\Scripts

      因此,你需要在命令行中键入
      cd C:\Users\Thinkpad\AppData\Local\Programs\Python\Python36-32\Scripts

      然后即可使用pip安装各种类库了。

      另外,此处要说明的是,bs4是BeautifulSoup的最新版本的BeautifulSoup4版本,因此也叫bs4。

最后,有关bs4的相关文档,可以查看
http://beautifulsoup.readthedocs.io/zh_CN/latest/#id8

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值