爬虫简介与基本语法

本文介绍了网络爬虫的基本概念,包括爬虫的作用、数据获取途径,详细讲解了爬虫涉及的知识,如Python基础、HTML解析、Scrapy框架等。并逐步解析了爬虫的基本语法,包括请求模块、网络接口构建、数据获取、保存等。此外,文章还涵盖了登录爬虫、处理HTTP无状态性、代理IP和验证登录等进阶话题,提供了多个实战案例。
摘要由CSDN通过智能技术生成

一、爬虫用来做什么的?

从互联网上提取数据的一组程序

1、什么是爬虫?

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。

那么在大数据世代,我们的数据从哪里来呢

2、数据获取途径

途径1:企业产生的用户数据:

百度指数:index.baidu.com

阿里指数: alizs.taobao,com

TBI: tbi.tencent.com

新浪微博指数:data.weibo.com

途径2:数据平台购买数据

数据堂:datatang.com

国运数据市场:moojnn.com/data-market/

贵阳大数据交易所:trade.gbdex.com

途径3:政府/机构公开数据

国家统计局:

世界银行

联合国

纳斯达克

途径4:数据管理咨询公司

麦肯锡 mcjinsey.com

埃森哲

艾瑞咨询

途径5:爬取网络数据:

如果需要的数据市场上没有,或者不愿意购买,可以选择做一名爬虫工程师,自己动手爬取数据。

3、爬虫需要涉及知识:

  1. python基础语法
  2. Html页面的内容抓取
  3. Html页面中进行数据抓取
  4. Scrapy框架
  5. 爬虫与反爬虫,反反爬虫之间的争斗

4、通用爬虫与聚焦爬虫

根据使用场景:网络爬虫可分为通用爬虫与聚焦爬虫

通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

 

二、爬虫基本语法:

1 、 导入request模块

首先需要用到 python中的requests

import requests


2、构建网络接口

name =  input('请输入要爬取的贴吧名称')
url =  'http://tieba.baidu.com/f?kw='+name

如果接口处是汉字需要注意在接口处的转码问题 

有时候&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值