爬虫
浪子文三少
求知若渴,虚心若愚
展开
-
脱产学习,寻找互助共学的朋友,每日一起监督交流
有意向的朋友可以私信我哈!我学习的主要方向是Linux,JS等原创 2023-02-14 00:07:05 · 85 阅读 · 0 评论 -
利用Python爬取翻译网站的翻译功能
现在我想分享一个利用Python技术,爬取一个翻译网站的翻译功能的小代码。首先隆重介绍我们今天将要爬取的网站:http://fy.iciba.com/咱们用Python中的urllib模块的功能进行爬取众所周知,在爬虫的准备工作中我呢吧需要确定咱们爬取网站的url那么,这个翻译网站的url如何确定呢?我们进入网站,并单击F12打开开发者工具(这里我们用的谷歌浏览器)这个网站的翻译功...原创 2019-02-22 21:41:41 · 5551 阅读 · 11 评论 -
运用Python爬取百度贴吧的图片——(中奖贴吧:P站吧)
现在我们要爬取百度贴吧的图片,选择了一个小清新一点的黄吧——P站吧。以这个贴吧为例,大家可以一次为例爬取更多的小黄网啦!工具:pycharm,requests库,正则表达式,Python相关知识直接po代码,注释很全乎的import requests,refor page in range(1,3): #这个for循环是我们爬取的页数,从第一页开始到第二页结束(不敢爬太多怕封ip...原创 2019-02-26 22:09:42 · 782 阅读 · 0 评论 -
运用多线程进行数据爬取——案例
我们运用爬虫进行数据爬取的过程中,如果遇到海量的数据导致爬取时间过长无疑狠影响效率。这时,聪明的爬虫工程师就想到了一种爬取提高效率,缩短时间的方法——多线程爬虫。我们列举一个案例——爬取腾讯招聘技术类前十页的数据。先po代码!import requestsfrom urllib import parsefrom bs4 import BeautifulSoupimport thread...原创 2019-03-07 20:56:33 · 1521 阅读 · 0 评论 -
使用selenium模仿手机浏览器访问淘宝网页
众所周知,selenium模拟浏览器进行页面访问是爬虫工具中较好用的方法。通过模拟浏览器可以很方便的访问很多需要通过登录验证才能访问的网页。我们通过selenium其中访问h5手机端网页的办法解决这个问题,代码如下from selenium import webdrivermobileEmulation = {'deviceName':'iPhone X'}options = webdri...原创 2019-03-18 19:12:57 · 1738 阅读 · 3 评论