python.spider
爬虫的一些分享
小熊佩萁
一切都会好起来的~
展开
-
怎么得到tuphub.today热榜和热度呢?
**用到的模块有:**requesst、re、pandas**步骤:**1.得到url2.设置请求头伪装浏览器,防止被反爬3.请求获得文本文件4.用re.compile()方法复制文本5.用pd.DataFrame()让爬取的信息根据可读性,条理性。import requestsimport reimport pandas as pdurl = "https://tophub.today/n/Jb0vmloB1G"headers = {"user-agent": "Mozilla/原创 2022-04-25 10:03:09 · 728 阅读 · 0 评论 -
怎么抓取网上的音频呢?我来操作下嘿嘿...
**首先:**如果你没有request、re模板,你需要win + r 进入终端 输入:pip install requests,下载re模板一个道理such as!如果你不清楚是否下载过 可以pip list 列出你所拥有的模板,四不四很有用~那么神器已经拿到手接下来我们就可以玩起来了嘿嘿import requestsimport re # 第一步当然是先导入我们的模板啦url = "http://f3.htqyy.com/play9/33/mp3/6" # 拿到我们需要抓取原创 2022-04-25 10:01:31 · 2105 阅读 · 0 评论 -
Urllib的4个模板
urllib的4个模板1.request:最基本的http请求模块,用来模拟发送请求,就像是在浏览器中输入一个网址然后回车一样,只需要传入uel,timeout等参数就可以实现一个模拟请求。主要功能:用于模拟发送请求打开和读取URL。2.error:异常处理模块,如果出现请求错误,我们可以捕获这些请求,然后进行重试或其他操作以保证程序不会意外终止。主要功能:进行异常处理3.parse:一个工具模块,提供了许多URL处理方法,比如拆分,解析,合并等2主要功能:用于解析URLrobotparser原创 2022-04-25 09:58:51 · 386 阅读 · 0 评论