学习用python爬虫

最新推荐文章于 2024-07-26 17:36:26 发布

26瓶白兰地

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量545

点赞数 1

文章标签： python 爬虫网络爬虫

本文链接：https://blog.csdn.net/weixin_65433674/article/details/124064928

版权

前提：是、一枚python小白，想学习一些python爬虫的技能，并且这就是第一步，记录并监督自己不断学习，当让如果内容帮助到了你的话，也非常的开心；

今天所学：爬取搜狗浏览器

爬虫主要分为四个步骤：

1.选定你所想爬的网站（使url='...'）

2.获取网站中的东西即数据(使requests.get（url,param,kwarg*）)

3.将数据内容赋给一个代名字（content）

4.保存内容到一个文件当中（with open (...,'...',...') as fp:）

这样你所爬的网站就是你所看到的所有，是固定死的

为了更加灵活一点，咱们得通过字典的形式来增加变量即创建一个param

这样就可以把静态的变为动态的

再者，网站会对爬虫程序进行反爬，所以咱们得伪装成浏览器的用户身份（user-agent）以免被拦截

这里简单提提怎么查询user-agent，进入需要爬的网站

按Fn+F12--弹出工具栏--打开网络--随你便选取一个项目点击----滑至最下查询复制粘贴

然后进行编写，以下是学习编写的简单代码：

import requests
headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29' //为自己电脑user-agent
    }
url='https://www.sogou.com/web?'//所爬网站
search=input("what do u want to search?")//变量
param={
        'query':search
    }
area = requests.get(url=url,params=param,headers=headers)//赋予名字

content=area.text
fileName=search+'.html'
with open (fileName) as fp//保存数据
        fp.write(content)
        print(" the project overed")

26瓶白兰地

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
学习用python爬虫

前提：是、一枚python小白，想学习一些python爬虫的技能，并且这就是第一步，记录并监督自己不断学习，当让如果内容帮助到了你的话，也非常的开心；今天所学：爬取搜狗浏览器爬虫主要分为四个步骤：1.选定你所想爬的网站（使url='...'）2.获取网站中的东西即数据(使requests.get（url,param,kwarg*）)3.将数据内容赋给一个代名字（content）4.保存内容到一个文件当中（with open (...,'...',...') as fp:）这样你所
复制链接

扫一扫