爬虫
wssssang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取豆瓣
'''爬取豆瓣网站上经典电影的 名字 和剧情简介'''#encoding:utf-8import requestsfrom lxml import etreeclass DoubanSpider(object): def __init__(self): self.url = "https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8" self.heade原创 2020-12-02 20:49:06 · 247 阅读 · 2 评论 -
爬虫DAY8
www.allitebooks.com1.jsonxml是json的前身。json是轻量级的数据交互格式。json简单理解就是字典或者一个列表。书写格式:1.不能写注释 2.key:value 必须是双引号 3.末尾不能写逗号 4.整个文件有且仅有一个{}或者[][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YTsL4204-1606913245157)(C:\Users\吴双双\AppData\Roaming\Typora\typo原创 2020-12-02 20:47:40 · 299 阅读 · 0 评论 -
爬虫DAY7
beautifulsoup#coding = utf-8from bs4 import BeautifulSouphtml_doc = """<html><head><title id = "one">The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p&g原创 2020-12-02 20:47:02 · 126 阅读 · 0 评论 -
爬虫DAY5
免费代理#encoding:utf-8import requests#1.请求urlurl = "http://www.baidu.com"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}#免费代理书写形式 {"http":"IP:port"}free_p原创 2020-12-02 20:45:36 · 460 阅读 · 0 评论 -
数据挖掘--requests库
数据挖掘----requests库安居客网页请求案例import requestsr = requests.get("https://beijing.anjuke.com/?")print(r)#返回text类型数据print(r.text)#返回二进制类型数据print(r.content)import randomimport requests#headers应该是一个字典,通常用于欺骗useragent1 = "Mozilla/5.0 (Windows NT 10.0; W原创 2020-11-20 23:04:54 · 239 阅读 · 0 评论 -
python多线程爬取
多线程爬取多线程回顾介绍import threadingimport timedef listening(): for i in range(5): print("我在听歌") time.sleep(1)def reading(): for i in range(5): print("我比较喜欢读书") time.sleep(1) if __name__ == "__main__":原创 2020-11-20 23:02:04 · 496 阅读 · 0 评论 -
爬取腾讯招聘网站
腾讯招聘网站爬取爬虫项目面向对象编程import reimport timeimport requestsimport jsonclass TenxunSpider(object): def __init__(self): self.headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko原创 2020-11-20 23:00:25 · 882 阅读 · 0 评论 -
爬虫DAY3
付费代理ip方法一#coding:utf-8import urllib.request#付费的代理发送#1.用户名密码(带着)#通过验证的处理器来发送def money_proxy_use(): #第一种方式来付费 #1.代理ip money_proxy= {"http":"username:password@192.168.12.11:8080"} #2.代理的处理器 proxy_handler = urllib.request.ProxyHand原创 2020-11-20 22:52:34 · 164 阅读 · 0 评论
分享