- 博客(25)
- 资源 (4)
- 收藏
- 关注
原创 02 遇到多个构造器参数时要考虑用构建器
02 遇到多个构造器参数时要考虑用构建器本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I
2017-10-18 21:29:00 261
原创 git branch --set-upstream 本地关联远程分支
git branch --set-upstream 本地关联远程分支
2017-10-16 21:19:58 63479 3
原创 机器学习库函数 numpy-MKL-1.8.0.win-amd64-py2.7.exe 64位库函数下载
机器学习库函数 numpy-MKL-1.8.0.win-amd64-py2.7.exe 64位库函数下载
2015-01-21 21:20:12 3761 4
转载 [Python]网络爬虫(一):抓取网页的含义和URL基本构成
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到
2014-12-30 14:58:31 699
转载 [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs
2014-12-30 14:57:22 766
转载 [Python]网络爬虫(三):异常的处理和HTTP状态码的分类
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8923725先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定
2014-12-30 14:56:35 597
转载 [Python]网络爬虫(四):Opener与Handler的介绍和实例应用
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8924889更好的学习网址:http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前,先来解释一下
2014-12-30 14:55:48 560
转载 [Python]网络爬虫(五):urllib2的使用细节与抓站技巧
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8925978前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受
2014-12-30 14:54:51 470
转载 [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
#转自:http://blog.csdn.net/pleasecallmewhy/article/details/8927832[python] view plaincopy# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版
2014-12-30 14:53:32 736
转载 [Python]网络爬虫(七):Python中的正则表达式教程
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8929576接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:h
2014-12-30 14:52:44 811
转载 [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8932310Q&A:1.为什么有段时间显示糗事百科不可用?答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。2.为什么需要单独新建个线程?答:基本流程是这
2014-12-30 14:51:18 638
转载 [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地t
2014-12-30 14:50:19 615
转载 [Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)
转自:http://blog.csdn.net/pleasecallmewhy/article/details/9305229先来说一下我们学校的网站:http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。显然这样手动计算绩点是一件
2014-12-30 14:48:55 1390
原创 [Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
转自:http://blog.csdn.net/pleasecallmewhy/article/details/19354723前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scra
2014-12-30 14:47:23 642
转载 [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
(建议大家多看看官网教程:教程地址)我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeli
2014-12-30 14:44:30 866
原创 Java算法学习-------插入排序算法(整数数组类型,可比较数组类型,可比较线性表类型)
Java算法学习-------插入排序算法(整数数组类型,可比较数组类型,可比较线性表类型)
2014-08-27 17:12:48 755
numpy-MKL-1.8.0.win-amd64-py2.7.exe
2015-01-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人