![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫笔记
文章平均质量分 57
不太累的码农
python爬虫+数据分析在学
展开
-
爬取豆瓣电影Top 250封面
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343...原创 2021-04-14 17:38:11 · 934 阅读 · 0 评论 -
小白爬虫笔记(3)| 用selenium爬取主播信息
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343浏览器:火狐1,分析网页点击换页,发现url根本不会变2.获取数据2.1导入包导入seleniumfrom selenium import webdriverdriver = webdriver.C.原创 2021-04-12 15:40:08 · 125 阅读 · 0 评论 -
爬虫实战(3)| 用scrapy将爬取的猫眼电影信息保存到MongoDB
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343dianying.pyimport scrapyclass DianyingSpider(scrapy.Spider): name = 'dianying' allowed_domains = .原创 2021-04-11 09:16:03 · 332 阅读 · 0 评论 -
小白爬虫笔记(3)| 糗事百科段子提取
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431.导入包# 用requests库来发送请求import requestsfrom fake_useragent import UserAgent# 使用正则import re2,分析页面,写url#.原创 2021-04-10 11:35:56 · 65 阅读 · 0 评论 -
爬虫实战(1)| 爬取豆瓣电影评论
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431.分析网址第一页:第二页:第三页:发现start值增加202.数据获取import requestsimport pandas as pdimport reimport timeimport .原创 2021-04-03 09:16:28 · 4948 阅读 · 8 评论 -
小白爬虫笔记(4)| 用爬虫框架功能来爬取糗事百科数据
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431.导入所需要的包from fake_useragent import UserAgentimport requestsfrom lxml import etree2.设计框架# 发送请求class Do.原创 2021-04-01 15:56:57 · 74 阅读 · 0 评论 -
爬虫笔记(3)| 用Xpath来提取——新闻+小说起点+猫眼电影
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431,...原创 2021-03-31 15:41:35 · 591 阅读 · 0 评论 -
小白爬虫笔记(2)| 爬取百度贴吧
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431,导入包,写框架# 用urllib中导入发送请求的库urlopenfrom urllib.request import Request, urlopen# quote可以使用中文from urllib.par.原创 2021-03-30 10:00:43 · 135 阅读 · 0 评论 -
小白爬虫笔记(1)| 豆瓣电影之Ajax请求的使用
大家好,作为一名互联网行业的小白,写博客只是为了巩固自己学习的知识,但由于水平有限,博客中难免会有一些错误出现,有不妥之处恳请各位大佬指点一二!博客主页:链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343一,分析页面内:目标:爬取豆瓣电影-排行榜-剧情中的电影观察url,会不会变化+滚动条的变化,向下拉时发现,滚动条在慢慢变小,电影在不断出现,但是URL没有变化再右键查看源代码,发现源代码中没有任何源代码的数据的.原创 2021-03-29 17:26:58 · 215 阅读 · 0 评论