自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 2023年,常见的反爬虫机制有哪些?在哪里学性价比最高?

那么问题来了,普通非科班出生的野生爬虫人,在哪里可以学习到这些技术?4. Javascript渲染。2. 封User-Agent。3. 封Cookies。6. Ajax异步传输。

2023-11-01 10:57:13 688

原创 爬虫请求头之User-Agent本质

其实,也可以把User-Agent的键(即各种浏览器)放到一个列表里,然后随机抽取一个浏览器传入到requests.get()里面伪装,然后向服务器发送请求。通常,我们是把整个User-Agent的键一起打包传入requests.get()里面。那么,爬虫在伪装时,最简单也最常用的方法就是利用User-Agent。爬虫就是一个伪装者,伪装成浏览器跟服务器沟通,并向服务器请求信息。

2023-10-31 10:11:52 762 1

原创 中文爬虫乱码问题的解决

想在requests.get()函数里面添加一下decode,Python又报错了。总算看到中文字了,从来没有对中文字符有如此亲切的感觉~明明已经唾手可得了,偏偏无处下嘴,哈哈!在网上找了一大堆资料,终于解决了。大家还有其他更简单的妙招吗?

2023-10-30 10:31:47 276 1

原创 B站喜爱up主的作品名及播放量爬取

刚好最近也在练习python爬虫,就写一个小爬虫,把该up主的作品和播放量给爬取下来。如果有对医学健康感兴趣的同学,可以好好看看这个up主的作品,真的非常棒!最近比较喜欢上B站看视频,学知识,还冲了一个大会员。

2023-10-28 11:24:42 366 1

原创 爬虫必备:各行业、专业领域的垂直导航网站(不定时更新)

对于爬虫来说,第一步就是要找到靠谱的、专业的、量大的数据,而各类垂直导航网站,可以帮我们省去不少时间,欢迎批评指正。

2023-10-27 17:22:15 1404 1

原创 利用python的jieba库高频词分析《寂静的春天》中文版

卡森通过描绘主人公凯勒女士与一只麻雀的故事,深刻地表达了她对于环境破坏和人类行为的担忧,同时也呼吁读者们关注并行动起来,共同保护自然环境。这本书出版后引起了极大的反响和影响,成为环保主义的代表作之一,被翻译成多种语言并广泛传播。它不仅促进了环保主义思潮的发展,而且对于当今社会中的环境问题也有着深远的启示意义。卡森以生动而严肃的笔触,描述因过度使用化学药品和肥料而导致环境污染、生态破坏,最终给人类带来不堪重负的灾难。是一本揭示人类对环境破坏后果的警世之作,它提醒我们要更加关注我们的环境,并采取行动来保护它。

2023-10-27 14:46:16 58 1

原创 爬虫基础小知识:如何提取字典的键?

如果键所包含的值,仍然是字典,可以再用一次上述方法查看内容,直到最终找到自己想要的关键信息为止!这对于小白分析复杂的JSON文件有很大的帮助,希望对你有用。在爬取JSON文件过程中,经常遇到字典,而我们需要爬取的关键信息就隐藏在字典里面。个人感觉,由于字典是没有索引的,不能像列表一样根据索引号一个个展现。这样,我们就可以很方便地知道爬取回来的字典包含有哪些键了。如何高效地、准确无误地把字典中的关键信息给提取出来?如果不知道字典的键,是无法将字典的值给提取出来的。好了,爬虫小知识就分享到此了~

2023-10-27 07:00:00 708 1

原创 爬虫requests库的带参数请求:‘data=’与‘params=’的区别

但是,通过上面的运行可知,requests.get()使用‘data=’时,传入的参数也不会显示在URL里面。在带参数的请求中,‘data=’与‘params=’两个很像,二者都可以把参数传入requests.get()或者requests.post()里面。在Python的requests库中,当你需要向服务器发送带参数的请求时,你可以使用两种不同的方式:'data='和'params='。而使用‘params=’,传入的参数会显示在res.url里面,这在爬取静态网页的HTML文件内,有重要的作用。

2023-10-26 21:49:55 1311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除