一样邪恶-CSDN博客

原创 python爬虫爬取今日头条信息

""""进入头条首页，在右边输入关键字，进入搜索页面，主要爬取搜索的到的图片以及图片的标题""""""""python版本：python3.6.5""""#手动输入搜索关键字和要爬取的页数，默认从第一页开始爬取end_page = int(input('请输入结束页面：'))keyword = input('请输入查找

2018-08-14 21:35:40 5314 1

原创 python爬虫爬取京东网页

import jsonimport requestsfrom bs4 import BeautifulSoupinput_name = input('请输入搜索关键字：')# 获取京东商品前50页的信息，包括名称，价格，图片，商店def get_jd(): #循环获得网页url for i in range(1, 51): #定义请求头 ...

2018-08-12 17:13:28 4821 2

原创 python爬虫爬取斗鱼直播数据

from time import sleepimport requestsfrom bs4 import BeautifulSoup# 爬取分类页面数据#获取斗鱼分类页面数据def get_directory(): #获取网页 url = 'https://www.douyu.com/directory' html = requests.get(ur...

2018-08-11 19:33:30 4789

原创 python爬虫爬取史诗典籍

import refrom time import sleepimport requestsfrom bs4 import BeautifulSoup# 获取书籍名字和进入目录的链接def get_book(): # 获取网页 url = 'http://www.shicimingju.com/book/' html = requests.get(u...

2018-08-10 21:01:36 337

原创 python爬虫爬取淘宝网商品信息

import jsonimport refrom time import sleepimport requests# 指定要搜索的商品并把商品的名字作为参数加入到url中input_name = input('输入你要查找商品的名字：')def get_taobao(url): html = requests.get(url).text # 利用正则提取想...

2018-08-09 17:50:26 1104

原创 python 爬虫爬取中国天气网数据

#获取网页数据import requestsdef get_weather(): try: url = 'http://www.weather.com.cn/textFC/hb.shtml' html = requests.get(url).content.decode('utf-8') print(html) excep...

2018-08-08 19:13:07 4912

原创 python爬虫爬取猫眼电影数据

# 定义一个函数获取猫眼电影的数据import requestsdef main(): url = url = 'http://maoyan.com/board/4?offset=0' html = requests.get(url).text print(html)if __name__ == '__main__': main()# 利用正...

2018-08-06 14:12:27 2456 2

1.安装c语言编译和构建工具yum install gcc2.从python官网上找到python3.6.5的链接wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz3.把下载的文件解压缩,解压缩之后文件名为Python-3.6.5.targunzip Python-3.6.5.tgz4.把文件解归档tar -xvf Pytho...

2018-06-20 19:27:48 4603

原创 python爬虫：爬取斗图啦数据

import requestsimport redef down_images(page=1): result = requests.get('https://www.doutula.com/photo/list?page={}'.format(page)).text ''' data - original = "http://ww1.sinaimg.cn/bmid...

2018-06-08 20:36:44 899

原创 python爬虫：爬取拉勾网数据

import requestsimport jsonfrom bs4 import BeautifulSoupdef crawl_detail(id): url = 'https://www.lagou.com/jobs/%s.html' % id headers = { 'Host': 'www.lagou.com', 'Referer'...

2018-06-08 19:52:05 515

yunfeiyang520的博客