爬虫
爬虫
沼泽深处的王
你的理想是我的底线
展开
-
爬虫——Python爬虫(BeautifulSoup)遇到拿meta标签
解决方案:一般拿标签是bs.find("div",class_="haha")而meta标签不能通过bs.find('meta',name='haha')而是bs.find(attrs={"name":"haha"})['content']原创 2020-12-14 13:04:16 · 2381 阅读 · 2 评论 -
爬虫——Python爬虫遇到ip被封或Max retries exceeded问题
(1)IP被封解决方法:User Agent+IP代理具体方法:User Agent减少IP被封次数,原理是模仿人的点击访问。具体做法:加上headers={'user-agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.133 Safari/569.36'}这里使用的是模仿谷歌浏览器的,其他浏览器可以参见这篇文章Python3网络爬虫(四):使用Us原创 2020-11-12 11:19:11 · 4610 阅读 · 2 评论 -
爬虫——Python爬虫(BeautifulSoup)遇到拿不到的标签
问题:由于网速不好,一些需要缓冲的标签获取不到解决方案:首先查看是不是自己所写的标签有问题,是用class还是用id取的。再利用仿真,让网站停留几秒进行缓冲方法:(1)将chromedriver.exe放到程序所在文件夹(2)py文件中导入from selenium import webdriverimport time(3)具体代码driver = webdriver.Chrome()driver.get(wholelink)#写上自己的链接time.sleep(5)#缓冲时间,可原创 2020-11-07 13:47:07 · 3117 阅读 · 0 评论 -
爬虫——Python爬英文文献ScienceDirect论文的标题、摘要,并保存在本地
相对于上一篇爬百度学术的,这篇爬的是ScienceDirect,英文版的,这里面提供的内容更全,有标题,完整摘要,作者,论文相关信息等import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quotesearch = input('请输入关键词:')kwen = search.encode('utf-8') #将汉字,用utf格式编码,赋值给gbkkwf = open('IEEE.txt','w',encod原创 2020-10-26 21:37:28 · 6040 阅读 · 18 评论 -
爬虫——Python爬百度学术论文的标题、摘要,并保存在本地
只能爬标题,部分摘要(链接页显示啥就是啥),也可以爬年份,来源,作者(代码中我注释掉了)import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quote#"百度学术是用utf-8编码的,因而这里汉字以这个形式编码search = input('请输入关键词:')kwen = search.encode('utf-8') #将汉字,用utf格式编码,赋值给gbkkwf = open('百度学术.txt','原创 2020-10-26 17:06:50 · 3937 阅读 · 1 评论