爬虫
xiaoxiaozhang3
这个作者很懒,什么都没留下…
展开
-
爬虫随机爬取百度百科"网络爬虫"
转载请注明出处https://blog.csdn.net/weixin_45163516利用Beautiful模块和强大的正则表达式来爬取网页from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"...原创 2019-07-28 10:59:13 · 992 阅读 · 0 评论 -
爬虫requests模块
转载请注明出处 https://blog.csdn.net/weixin_45163516# 需安装requests模块import requests# import webbrowser#在百度上查找 "xiaoxiaozhang"param = {"wd": "xiaoxiaozhang"}r = requests.get('http://www.baidu.com/s', pa...原创 2019-07-28 12:00:49 · 191 阅读 · 0 评论 -
爬虫下载网页图片
3行代码下载网页上的图片3种方式下载import osfrom urllib.request import urlretrieveimport requestsos.makedirs('./img/', exist_ok=True)IMAGE_URL = "https://xiaoxiaozhang3.github.io/img/cart_cover.jpg"#将IMAGE_U...原创 2019-07-28 13:41:47 · 500 阅读 · 0 评论 -
利用爬虫下载图片
转载请注明出处https://blog.csdn.net/weixin_45163516利用爬虫在71图片网下载图片from bs4 import BeautifulSoupimport requestsimport osURL = "https://www.7160.com/"html = requests.get(URL).textsoup = BeautifulSo...原创 2019-07-28 14:10:53 · 1692 阅读 · 0 评论 -
使用爬虫爬取网站的所有url
转载请注明出处:https://blog.csdn.net/weixin_45163516import multiprocessing as mpimport timefrom urllib.request import urlopen, urljoinfrom bs4 import BeautifulSoupimport rebase_url = 'https://morvanz...原创 2019-07-28 15:38:52 · 8590 阅读 · 0 评论 -
asyncio模块来加速爬虫
转载请注明出处https://blog.csdn.net/weixin_45163516本次采用异步加载来加速爬虫异步加载的原理:当一个进程或事件执行的时候,第二个进程随即执行import aiohttpimport asyncioimport timefrom bs4 import BeautifulSoupfrom urllib.request import urljoinim...原创 2019-07-28 16:01:11 · 239 阅读 · 0 评论