![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 64
桜キャンドル淵
凑个整,就1024吧
展开
-
爬虫-bs4的使用
beautifulsoup4是Python数据包中专门用于数据解析的数据包,它能够匹配网页原码中的标签页,从而从网页中获得我们想要的数据,本章节我们来讲述bs4的一些简单的使用,以及如何使用bs4爬取网页上的小说。一.find方法的使用#首先我们打开一个text.html文档,打开的模式为只读模式,其编码为utf-8fp=open('./text.html','r',encoding='utf-8')#使用我们的BeautifulSoup函数将我们的文本进行处理。 soup=Beaut原创 2022-05-16 11:00:10 · 1189 阅读 · 0 评论 -
re正则模块的简单使用
简介re正则模块是我们的python中用来匹配字符的。因为我们的python时常需要处理一些杂复杂的数据文件,我们需要使用re正则模块将我们所需要的数据从我们的文件中提取出来。以下是一个简单的举例:这里我们首先导入我们的re正则数据包,然后我们创建了一段字符串,我们想要匹配出我们字符串中的数字字符,我们就可以使用我们的re正则模块,将我们的匹配方法放入我们的reg中,其中\d的作用就是匹配字符串中的单个数字将我们需要匹配的对象和匹配的法则传递给我们的re.findall函数,然后我们就能够找原创 2022-05-13 22:03:53 · 445 阅读 · 5 评论 -
爬虫-从入门到入狱(level1)
我们往往需要采集大量的数据来进行分析,这些信息可以来源于网上,我们可以用爬虫的方法来获取到这些数据。这里我们创建了一段代码,用我们的百度搜索引擎来搜索我们想要的词条#这里我们导入request模块import requestsif __name__=="__main__":#这里我们指定我们的url,也就是我们的百度网址 url='https://www.baidu.com'#这里我们使用input获取我们输入的内容 kw=input('enter a word:')#这原创 2022-05-11 23:01:33 · 781 阅读 · 6 评论