python
文章平均质量分 78
牧羊人Full
你可以不受约束,不承担任何责任,对此博客任意评论。
展开
-
python入门总结
python是一门面向对象的脚本语言,有丰富的web库和网络处理能力,在开发nginx模块时也会用到。这里对学习到的基础知识点做一个小总结。变量在定义的过程中不用指定类型,可以用type()函数查看变量或常量类型 i = 1 type(i) type(“hello world”) 函数的定义 def func(arg): command return val 条件执行语句和循环原创 2015-05-11 22:31:40 · 563 阅读 · 0 评论 -
scrapy爬豆瓣电影
usage:scrapy crawl first一、抓取效果二、源码下载http://download.csdn.net/detail/wxq714586001/8821149三、总结done:1、解决了将unicode字符串(类似于‘\uxxx\n\t\t’)转换为实际的文字,困扰了很久。2、用正则表达式替换字符串。3、scrapy的基本使用方法。原创 2015-06-19 00:04:12 · 885 阅读 · 0 评论 -
scrapy爬取豆瓣读书的图书信息
usagescrapy crawl dou一、效果二、源码下载地址http://download.csdn.net/detail/wxq714586001/8826869三、实现过程done list: 1、定义Item 2、开始爬取网页 a、定义类继承自CrawlSpider b、定义name/a原创 2015-06-21 21:18:07 · 1408 阅读 · 0 评论 -
scrapy抓取知乎话题v0.1
一、简介 抓取知乎某一子话题,赞同人数超过10的会被抓取。回答ID、赞同人数、回答时间、内容、提问被保存到mysql数据库中,支持更新(多次抓取时对于同一回答的ID只更新赞同人数)。usage:scrapy crwal zhihu二、效果:抓了一个通宵将编程子话题全部抓完,抓取了13M的内容,下面是保存为json的数据。但是,数据量一大用json来保存就很不方便原创 2015-06-23 23:12:55 · 1045 阅读 · 0 评论 -
python 爬直播吧NBA录像
一、运行结果二、源码# -*- coding:utf-8 -*-import urllibimport urllib2import reimport osimport codecsclass NBA(object): def __init__(self, team = ur'(热火vs马刺)'): self.base_url = ur'h原创 2015-06-09 20:25:21 · 1555 阅读 · 0 评论 -
python 白云黄鹤十大
一、效果能捕获按键的输入,无需按enter确认。二、源码# -*- coding:utf-8 -*-import selectimport sysimport timeimport osimport termiosimport reimport urllibimport urllib2import codecsimport chardetimpo原创 2015-06-11 21:27:00 · 1511 阅读 · 0 评论 -
python 知乎回答按赞排序
一、实现效果二、源码#coding:utf-8import reimport timeimport codecsimport StringIO, gzipimport osimport urllibimport urllib2from bs4 import BeautifulSoupimport chardetdef my_cmp(a, b): r原创 2015-06-15 22:27:31 · 2168 阅读 · 0 评论 -
scrapy抓取知乎话题v0.2(实现qq发送邮件功能)
源码下载地址:一共由两个scrapy工程实现。第一个工程zhihu_topic:实现抓取关注人数超过2000的知乎话题、相应链接、父子话题并存入MySQL数据库。这个工程只要执行一次,第二个工程会利用这里获取到的链接(link_id)。usage: scrapy crawl topic下面是从数据库中获取一部分话题的截图第二个工程zhihu:先贴出原创 2015-07-07 21:28:43 · 2258 阅读 · 0 评论