爬虫
喂鱼W_y
一枚小白,立志学好python!
展开
-
爬取今日头条图片
1、点击今日头条,在右侧搜索框内输入街拍。这时我们可以看到许多带有图片的文章。当我们滑动到页面底部时,网页会通过ajax加载更多文章。2、打开浏览器F12的开发者工具,点击Network(chrome下)选项,尝试加载更多文章,可以看到如下http请求: 我们可以看到,当我们下拉网页加载更多文章时,网页里发出请求如图二。 可以看到请求的URL为:http://www.toutiao.com/se转载 2017-03-04 11:49:41 · 3298 阅读 · 3 评论 -
学习python爬虫之菜鸟日记(一)
学习python已经有快半年了,感觉零零碎碎的也看了不少东西,总感觉自己是在原地踏步无法入门,十分苦恼啊。本着鼓励自己学习的目的,开通了一个博客来激励自己好好学习。 作为小白一枚,目前只能简单的做做搬运工,看到好的东西记录下来,慢慢来咯。 最近在看网络爬虫,记录一下。这个makedown第一次用,写起来略感困难啊,我个渣渣啊。废话不多说,开始搬砖。一、爬虫入门之URLError异常处理1.URL转载 2017-02-17 20:00:11 · 897 阅读 · 0 评论 -
2017开始学爬虫
记录一下学习打造收集数据网站的过程 链接:www.mite8.com,学习如何做出类似这样的网站。 这个网站特点主要体现在爬虫+数据分析+数据可视化,现在将学习如何打通从收集数据,到处理,到分析,到网站数据可视化整套流程。 技术方面需要关注: 1.如何解决数据源的问题:爬,所以需要爬虫知识 2.如何做数据存储:MYSQL 3.如何做数据分析:转载 2017-02-18 13:39:46 · 1116 阅读 · 0 评论 -
爬取糗事百科
目标:1、抓取糗事百科热门段子。2、过滤带有图片的端子。3、实现每按依次回车显示一个段子的发布时间,发布人,段子内容,点赞数。(这个网站不需要登陆,不需要用到cookie)1、确定URL抓取页面代码 http://www.qiushibaike.com/hot/page/1,其中最后一个数字代表页数。-*-coding:utf-8-*-import urllibimport urllib2pa转载 2017-02-20 17:48:46 · 340 阅读 · 0 评论 -
爬虫工具lxml库的使用和Xpath语法
安装 pip install lxmlXpath 语法: Xpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于Xpath表达之上。 具体语法知识参考 w3schoollmxl用法 利用它解析HTML代码:from lxml import etreetext转载 2017-02-20 21:53:22 · 1232 阅读 · 0 评论 -
Flask 之模板
3.1 Jinja2 模板引擎3.1.1 渲染模板 3.1.2 变量 3.1.3 控制结构3.2 使用 Flask-Bootstrap 集成 Twitter Bootstrap转载 2017-02-23 23:39:50 · 365 阅读 · 0 评论 -
urllib2 实现简单爬取12306网站
开发工具:python2.7主要是用的库:urllib2爬取对象:12306购票系统1、首先我们的任务是选取合适的网页入口,打开12306官网:我们先试试进入余票查询: 第一次进入这个网站我们发现报错了,在网址http处红色显示证书不符合要求,我们暂时忽略。点击查询按钮,这时候我们看到页面并没有变化。我们按F12进入开发者工具看看: 我们进入Network选项,再次点击查询发现下方显示拒绝访转载 2017-02-24 00:22:47 · 1484 阅读 · 0 评论 -
爬虫工具:PhantomJS
前言:Phantomjs 帮助我们像浏览器一样渲染JS处理的页面。安装:下载地址官方文档1.第一个程序新建一个 js 文件,命名为 helloworld.js。 console.log(‘Hello, world!’); phantom.exit();命令行输入: phantomjs helloworld.js程序输出了 Hello,world!程序第二句话终止了 phantom转载 2017-02-25 20:50:11 · 310 阅读 · 0 评论 -
爬虫入门实践 | 利用python爬取彩票中奖信息
系统环境:mac python版本:3.6.2(anaconda) 库:requests、BeautifulSoup爬取一些简单的静态网站,一般采取的策略为:选中目标,也就是需要爬取的网站url;观察结构,查看网页结构,联接结构;构思动手,选择Html下载器和解析器,最后存储数据。今天我们爬取对象是中彩网中3D彩票中奖信息。对应的URL为:http://kaijiang.zhcw...原创 2018-07-20 23:31:39 · 7710 阅读 · 5 评论