ZCC的专栏

每天坚持看书和写作,相信每天的一小步,将会是人生的一大步! 形成、知化、流动、屏读、使用、共享、过滤、重混、互动、追踪、提问、开始!...

GitHub上Python的爬虫工具

网络相关 通用 urllib - 网络库(标准库)requests - 网络库grab - 网络库(基于pycurl)pycurl - 网络库 (与libcurl绑定)urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库http...

2018-01-28 21:16:10

阅读数:336

评论数:0

猫眼电影TOP100爬取

1.  项目环境                (1)  win7          (2)  python 3.5          (3)  pycharm 2、项目流程分析 3. 完整代码 # -*- coding: utf-8 -*- import requests im...

2017-10-10 15:46:12

阅读数:180

评论数:0

利用Scrapy爬取知乎用户详细信息并存至MongoDB

本节目标 本节要实现的内容有: 从一个大V用户开始,通过递归抓取粉丝列表和关注列表,实现知乎所有用户的详细信息的抓取。将抓取到的结果存储到MongoDB,并进行去重操作。 思路分析 我们都知道每个人都有关注列表和粉丝列表,尤其对于大V来说,粉丝和关注尤其更多。 如果我们从一个大V开始,首...

2017-09-13 11:29:43

阅读数:337

评论数:0

爬取网易云音乐下面的热门评论

一、运行环境    (1) win10    (2) python 2.7    (3) pycharm    (4) 安装依赖   pip install  PyCrypto 等  二、运行源程序 # -*- coding: utf-8 -*- # @Time ''' @Descriptio...

2017-09-11 16:20:17

阅读数:361

评论数:0

python爬去知乎和简书内容

一、爬取知乎热门内容 # -*- coding: utf-8-*- import urllib2 import re from BeautifulSoup import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('ut...

2017-09-10 21:42:28

阅读数:452

评论数:0

python爬虫爬出新高度

一、运行环境      (1)win7      (2)python 2.7      (3)pycharm 二、获取csdn发表的文章 # coding:utf-8 import urllib2, re, time, random, os, datetime import HTMLParser ...

2017-09-10 20:37:21

阅读数:582

评论数:0

Selenium&&PhantomJS获取网站中的JS返回的数据

一、安装Selenium模块 pip install selenium       Selenium 是一套完整的Web应用程序测试系统,包含了测试的录制、编写及运行和测试的并行处理。 二、安装PhantomJS(官网下载:http://phantomjs.org/)        ...

2017-09-10 15:22:40

阅读数:735

评论数:0

爬去知乎下某个问题下所有的图片

主要用户你看到某个感兴趣的问题,需要回答者的图片,比如制作和收集表情包,还有其他用途你懂的! 一、运行环境       (1) win7      (2) python 2.7     (3)  pycharm 二、 主要代码 #-*- coding:utf-8 -*- import re i...

2017-09-08 21:23:43

阅读数:433

评论数:0

bs4爬虫:获取双色球中奖信息

一、开发环境    (1)win10    (2)python 2.7    (3)pycharm 二、保存数据到excel的类 import xlwt class SavaBallDate(object): def __init__(self, items): s...

2017-09-06 11:32:18

阅读数:268

评论数:0

bs4爬虫:获取百度贴吧的内容

一、 环境    (1) windws 10    (2)  python.27    (3)  pycharm 二、详细代码    (1)日志分析类  import logging import getpass import sys #### 定义MyLog类 class MyLog(o...

2017-09-05 11:06:46

阅读数:242

评论数:0

Scrapy爬虫爬取天气数据存储为txt和json等多种格式

一、创建Scrrapy项目 scrapy startproject weather      二、 创建爬虫文件 scrapy genspider wuhanSpider wuhan.tianqi.com     三、SCrapy项目各个文件    (1) items.py impor...

2017-09-02 15:16:55

阅读数:1452

评论数:0

Python 脚本帮你找出微信上删除了你的“好友“

一、普遍验证办法        群发消息应该算是微信上流传最广的找到删除好友的方法了。但群发消息不仅仅会把通讯录里面所有的好友骚扰一遍,而且你还得挨个删除好几百个聊天记录,回复大家的疑问和鄙视。作为一个互联网从业者,除了群发消息就不能有更高效、不打扰好友的方式么? 二、写个脚本验证一下...

2017-08-20 19:51:11

阅读数:1124

评论数:0

Python爬虫项目

WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。   DouBanSpider [2]– 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储...

2017-08-17 15:30:42

阅读数:194

评论数:0

通过爬虫迁移CSDN博客

最早是在CSDN上写博客的,可是渐渐发现CSDN写博客有诸多限制,而且CSDN博客时不时会挂掉,因此后面用Hexo在github上搭了一个新博客,也就是现在这个。然而这样一来很多文章就留在CSDN上,而在新博客上找不到了。 因此前几天用Java写了一个爬虫,把CSDN上的博客内容爬了下来,并解析成...

2017-08-10 15:31:56

阅读数:237

评论数:2

Scrapy抓取天气数据和显示

一、item编写   import scrapy class GzweatherItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # title...

2017-08-07 16:35:09

阅读数:406

评论数:3

python获取自己发的说说内容

一、模拟登陆 import re from selenium import webdriver from time import sleep from PIL import Image #定义QQ空间登录函数 def QR_login(): def getGTK(cookie): ...

2017-08-06 19:59:25

阅读数:849

评论数:0

获取qq好友发的说说

一、Selenium简介 Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。 由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作...

2017-08-05 17:45:43

阅读数:630

评论数:0

Python 爬虫:把廖雪峰的教程转换成 PDF 电子书

Python 爬虫:把廖雪峰的教程转换成 PDF 电子书系统要求python3.4以上版本, 不支持python2.x准备工具requests、beautifulsoup 是爬虫两大神器,reuqests 用于网络请求,beautifusoup 用于操作 html 数据。有了这两把梭子,干起活来利...

2017-08-03 15:16:47

阅读数:2458

评论数:0

利用Scrapy框架爬取博客信息并存到mysql数据库

一、所需要的库           (1)Scrapy           (2)pymysql 二、 创建数据库和表    Create database hexun; Use hexun; Create table myhexun(id int(10) auto_incre...

2017-08-01 11:36:21

阅读数:398

评论数:0

python爬取新浪新闻存储到excel

一、运行环境 (1) BeautifulSoup的导入:pip install BeautifulSoup4 (2) requests的导入:pip install requests (3) re的导入:pip install re (4) pandas的导入:pip in...

2017-07-30 11:06:02

阅读数:419

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭