![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Yeoman92
You can! Because you were the best one of the 120.
展开
-
爬取去哪儿网北京南站驴友点评,及词云
爬取页面截图代码数据抓取# -*- encoding:utf-8 *-*import urllib.requestfrom lxml import etreeimport os#获取页面def get_page(url): page = urllib.request.urlopen(url) html = page.read() ...原创 2018-07-25 11:01:05 · 654 阅读 · 0 评论 -
爬取海南大学事务管理系统
爬取源首页url:http://xgxt.hainu.edu.cn/login.htm 需要绕过登录,一种方案是获取验证码图片,通过验证码识别包进行识别,但对于该网站的识别率较低。本文采用第二种方案,通过手动输入登录获取登录cookie,然后在爬虫代码中使用该cookie进行信息的爬取。获取登录cookie...原创 2018-07-25 11:57:45 · 1254 阅读 · 0 评论 -
python爬虫:使用selenium + ChromeDriver爬取途家网
本站(途家网https://www.tujia.com)通过常规抓页面的方法不能获取数据,可以使用selenium + ChromeDriver来获取页面数据。原创 2018-10-17 10:17:08 · 10187 阅读 · 8 评论 -
python制作ip代理池
# !/usr/bin/env python# -*- coding: utf-8 -*-# @Version : 1.0# @Time : 2018/10/23 上午10:40# @Author : Yeoman# @Description : import urllib.requestimport lxml.etreeimport ...原创 2018-10-23 17:39:59 · 1652 阅读 · 0 评论 -
python爬取链家网的房屋数据
python爬取链家网的房屋数据爬取内容爬取源网站爬取内容爬取思路代码获取房屋url获取房屋具体信息爬取内容爬取源网站北京二手房 https://bj.lianjia.com/chengjiao/爬取内容爬取思路通过不同的条件组合,来尽量获取多的数据(因为有100页的限制)获取当前页的房屋url翻页保存每一页的房屋url,并把url写到本地读取房屋url,爬取每个房屋...原创 2019-01-22 21:40:59 · 6750 阅读 · 3 评论 -
python爬取好大夫在线网
前言好大夫在线网(https://www.haodf.com),是封ip的,当然通过(高匿)代理IP一般就能解决。but恶心的地方在于该站使用了知道创宇的云拦截,能够获取机子的真实ip,使用代理ip并没有什么卵用。爬取源及爬取内容爬取源是11万条医生页面的url,获取页面的一些访问信息。目录结构代码import requestsfrom lxml import etreei...原创 2019-02-17 15:58:45 · 8990 阅读 · 18 评论