Python爬虫:设置随机 User-Agent
在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先,你需要安装fake-useragent库:
pip install fake-useragent
![]()
然后,你可以按照以下示例代码来设置随机User-Agent:
import requests
from fake_useragent import UserAgent
def get_random_user_agent():
ua = UserAgent()
return ua.random
def crawl_url(url):
headers = {'User-Agent': get_random_user_agent()}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
url = "https://example.com" # 要爬取的网址
ht

本文介绍了在Python爬虫中如何通过fake-useragent库设置随机User-Agent,模拟真实用户行为,同时提醒遵守robots.txt和控制请求频率以保持合法爬取。
最低0.47元/天 解锁文章
890

被折叠的 条评论
为什么被折叠?



