![](https://img-blog.csdnimg.cn/201909230124314.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
人生苦短,我用Python
Jitwxs
关注 https://jitwxs.cn,看最新首发文章
展开
-
全网股票爬取
注:使用了东方财富网提供的股票列表,配合百度股票的数据实现,实现上交所和深交所的股票信息爬取import requests,refrom bs4 import BeautifulSoupdef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status()原创 2017-03-19 19:39:21 · 656 阅读 · 0 评论 -
Python lambda 与 闭包
Lambda高阶函数可以接收函数做参数,有些时候,我们不需要显式地定义函数,直接传入匿名函数更方便,也就是lambda。先来看个简单 lambda 函数>>> lambda x, y : x+y<function <lambda> at 0x102bc1c80>x 和 y 是函数的两个参数,冒号后面的表达式是函数的返回值,你能一眼看出这个函数就是是在求两个变量的和,但作为一个函数,这里我们暂且给这原创 2017-05-10 01:00:50 · 2231 阅读 · 0 评论 -
Python3 高阶函数
把函数作为参数下面是一个简单的高阶函数:def add(x, y, f): return f(x) + f(y)如果传入abs作为参数f的值:add(-5, 9, abs)根据函数的定义,函数执行的代码实际上是:abs(-5) + abs(9)由于参数 x, y 和 f 都可以任意传入,如果 f 传入其他函数,就可以得到不同的返回值。题目利用add(x,y,f)函数,计算:√x + √y代码原创 2017-05-10 00:17:42 · 550 阅读 · 0 评论 -
Python爬取磁力链信息
更新说明 2017.4.23本程序使用MySQL数据库存储,使用本程序前请手动修改相关程序开头处的数据库连接语句。需要requests、bs4、pymysql库支持。爬取和网站目录结构有关,网站变动目录结构可能导致爬虫失效。支持多线程。支持磁力链网站达到5家。项目地址GitHub : MagnetCrawler原创 2017-04-23 22:11:04 · 2418 阅读 · 0 评论 -
模拟登陆爬取知乎
2017.4.26更新实现功能为爬取指定关键字下所有问题及每个问题中的所有回答回答中文字和图片是分离的,因为从服务器返回的JSON数据中内容部分比较混乱,暂时只是粗暴的做了分离操作后续将加入多线程下载、爬取用户、爬取话题的功能项目地址 GitHub : ZhihuCrawler 使用说明本程序实现爬取指定关键词下所有问题及所有回答,保存格式为csv格式采用模拟登陆,首次使用时需要输入账原创 2017-04-26 23:08:56 · 426 阅读 · 0 评论 -
Python连接MySQL数据库
前言python连接MySQL一般有两个常用库,分别是pymysql 和MySQLdb , 但是MySQLdb比较老了。本文介绍pymysql库的基本使用方法,MySQLdb的使用方法也大同小异。安装pip install mymysql连接语句 1. 创建connection对象conn = pymysql.connect(host='127.0.0.1', port=3306, user='原创 2017-04-24 21:34:02 · 485 阅读 · 0 评论 -
Python命令行传参
实现方法使用sys库的argv类来实现。argv[0]:代表执行的python程序名称,因此第一个参数为 argv[1]argv[n]:代表传给程序的第n个参数示例demo.pyfrom sys import argvprint(argv[0])print(argv[1])print(argv[2])print(type(argv[1]))在CMD中执行命令:python demo.py 1原创 2017-04-23 23:27:43 · 507 阅读 · 0 评论 -
Bilibili爬虫之爬取小黑屋
使用说明需要BeautifulSoup和requests库的支持数据库采用MySQL,数据库连接需要pymysql库支持使用前请手动修改程序开头处的数据库连接语句转载请注明出处:http://blog.csdn.net/yuanlaijike/article/details/代码import requests,re,traceback,json,pymysqlconn = pymysql.原创 2017-04-23 01:48:38 · 2056 阅读 · 0 评论 -
Python爬取海安网所有号码
注:1.本程序采用MS SQL server数据库,请运行前手动修改程序开始处的数据库连接信息。2.需要pyodbc库的支持import requests,re,sysfrom bs4 import BeautifulSoupimport pyodbcpages = set()conn = pyodbc.connect(r'DRIVER={SQL Server};SERVER=原创 2017-03-25 13:21:57 · 1529 阅读 · 0 评论 -
Python爬虫入门 第一章 Requests库入门
第一章 Requests库入门1. 使用命令行安装: pip install requests2. Requests库的7个主要方法 方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法原创 2017-03-30 10:31:50 · 1410 阅读 · 0 评论 -
Python爬取当当、京东、亚马逊图书信息
注:1.本程序采用MS SQL server数据库存储,请运行程序前手动修改程序开头处的数据库链接信息2.需要bs4、requests、pymssql库支持from bs4 import BeautifulSoupimport re,requests,pymssql,osconn = pymssql.connect(host="WXS-PC", user="sa",database=原创 2017-03-25 13:26:54 · 2599 阅读 · 1 评论 -
淘宝搜索定向爬取
注意:依据每个关键词的不同,正则表达式可能需要需改。本例中正则表达式,仅对应于本例中关键词。import requests,redef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent原创 2017-03-19 17:15:34 · 806 阅读 · 0 评论 -
Online Judge爬虫
项目地址:Online Judge爬虫Online Judge爬虫前言本爬虫爬取各大OJ的公开题目。如有侵权,请联系我:jitwxs@foxmail.com。使用方法使用IDLE(或其他Python IDE)运行程序,自动将结果保存在源代码同级目录中(txt文本格式)。程序说明PATContests.py 爬取PAT(Programming Ability Test)竞赛题目(https://ww原创 2017-11-13 21:31:02 · 580 阅读 · 0 评论