![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
珂鸣玉
这个作者很懒,什么都没留下…
展开
-
爬取imdb资料库
写一个简单的python爬虫程序,爬取imdb资料库,将爬取到的电影信息,存储到一个excel表格中因为imdb资料库电影网没有反扒措施,直接爬取即可代码如下:import requestsfrom lxml import etreeimport pandas as pdimport numpy as np# 第一页:'http://www.imdb.cn/IMDB250/...原创 2019-10-23 15:56:52 · 2307 阅读 · 0 评论 -
numpy模块
一、Numpy是什么?Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。其实,list已经提供了类似于矩阵的表示形式,不过numpy为我们提供了更多的函数。如果接触过matlab、scilab,那么numpy很好入手二、numpy的一些方法:使用之前安装好numpy模块1、创建一维、二维数组:import nu...原创 2019-05-18 15:27:17 · 1517 阅读 · 0 评论 -
使用scrapy框架爬取数据并存到mongo数据库
以爬取淘车网的二手车信息为例,将车的信息爬取出来并存到MongoDB数据库中首先创建如图所示的目录:进入当前目录下命令行:创建项目:scrapy startproject day0514然后cd day0514 进入当前项目创建爬虫程序:scrapy genspider 程序名 域名scrapy genspider TaoChe taoche.com启动项目:scra...原创 2019-05-18 10:17:23 · 791 阅读 · 1 评论 -
爬虫------动态HTML处理
一、常见的反爬虫技术如果你在一个网站上看到了 jQuery,那么采集这个网站数据的时候要格外小心。jQuery可 以动态地创建 HTML 内容,只有在 JavaScript 代码执行之后才会显示。如果你用传统的方法采集页面内容,就只能获得 JavaScript 代码执行之前页面上的内容。一些网站采取的反爬虫技术,一般包括ajax,DHTML等1、什么是ajax?我们与网站服务器通信...原创 2019-05-16 20:46:28 · 2750 阅读 · 0 评论 -
采用生产者消费者模式爬取毛豆新车网
代码如下import requestsimport threadingfrom queue import Queueimport timefrom lxml import etree# 生产者线程class Thread_crawl(threading.Thread): def __init__(self,name,crawl_queue): threa...原创 2019-05-10 14:26:35 · 276 阅读 · 0 评论 -
Mongodb的安装
一、下载并安装 mongodb软件下载地址:http://dl.mongodb.org/dl/win32/x86_64选择对应的版本,然后进行下载。注:mongodb3.6 版本在安装时会卡住不动,建议大家安装 3.4 版本即可。1、安装过程:2、创建数据库文件的存放位置因为启动 mongodb 服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而...原创 2019-05-14 22:26:51 · 230 阅读 · 0 评论 -
使用time模块直接输入当前时间
程序如下:直接一步到位哦import timep_time = time.strftime("%Y-%m-%d %X", time.localtime())print(p_time)运行结果:原创 2019-05-14 11:51:05 · 609 阅读 · 0 评论 -
使用scrapy框架对淘车网进行爬取数据
对淘车网各个省份的卖车的列表页和详情页进行数据爬取首先建立一个项目scrapy startproject day0513然后在进入此项目下建立爬虫主程序scrapy genspider taochetaoche.comitems.py文件建立存储的字段# -*- coding: utf-8 -*-# Define here the models for your s...原创 2019-05-14 09:24:56 · 610 阅读 · 0 评论 -
使用scrapy框架爬取数据
一、环境准备首先我采用anacoda环境,需要首先建造一个项目,并激活建立一个爬虫项目:conda create -n Spider python == 3.6.2conda create -n Spider python == 3.6.2然后激活环境activate Spider再此环境下需要下载scrapy模块和pywin32模块pip install sc...原创 2019-05-13 23:17:07 · 4373 阅读 · 0 评论 -
爬取网易云音乐所有歌手名字和链接
采用面向对象的方式代码如下:import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self,base_url): # 初始化tree self.html = self.request_url...原创 2019-05-05 22:57:10 · 1620 阅读 · 0 评论 -
爬取链家网所有二手房楼盘信息
代码如下:import requestsfrom lxml import etreeimport mathimport timedef request_url(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li...原创 2019-05-08 09:55:04 · 500 阅读 · 0 评论 -
爬取征信中国某公司详情页各项
代码如下:import requestsfrom bs4 import BeautifulSoupimport timekeyword = input('请输入要查询的公司名称:')# url = 'https://www.creditchina.gov.cn/xinyongxinxi/index.html?index=0&keyword=%s'%(kewword)head...原创 2019-05-08 09:53:20 · 1638 阅读 · 0 评论 -
Xpath提取数据
一、什么是Xpath?XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准W3School 官方文档:http://www.w3school.com.cn/xml/index.as...原创 2019-04-29 22:08:01 · 7209 阅读 · 1 评论 -
如何将爬虫的数据添加到mysql数据库中
以爬取糗事百科中24小时网页中第一列表页中所有文章的内容,作者,搞笑数,评论数为例,将爬取的四项内容存入到mysql数据库中。思路:要想存入到数据库中就需要用到数据库中的表,所以我们首先创建一个名叫‘myblog’的数据库,然后在此数据库中建立一个名叫‘qiushi’的表,可以使用命令符进入mysql数据库,使用mysql语句进行创建。也可以使用Navicat Premium软件直接连接m...原创 2019-05-02 23:35:23 · 22465 阅读 · 14 评论 -
爬虫简介与基本语法
一、爬虫用来做什么的?从互联网上提取数据的一组程序1、什么是爬虫?网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。那么在大数据世代,我们的数据从哪里来呢2、...原创 2019-04-25 19:10:04 · 2075 阅读 · 0 评论