爬虫基础
从没觉得自己胖z
这个作者很懒,什么都没留下…
展开
-
python爬虫基础-(文档匹配方法bs4)
爬虫的另外一种匹配方法就是就是bs4首先要理解的什么是超文本标记语言,对bs4做解析,用bs4做逻辑的提取。<h1>i love you</h1>对bs4做解析,用bs4做逻辑的提取,html是超文本标记语言,用不同的标签对网页的内容进行标记,使网页显示出不同的展示效果。不同的标签有不同的标记信息,h1:标签 align:属性 center:属性值 <标签 属性:"属性值">被标记的内容</标签> <img src='x原创 2021-08-13 15:53:10 · 724 阅读 · 0 评论 -
python基础-(正则表达式爬取电影排行榜)
这次爬取的是一个电影网页里面的观影排行榜#思路,拿到页面源代码,通过re提取想要元信息。import requests,re,csvUse_info = {'User-Agent': ''}url = 'https://movie.douban.com/top250?start=%s&filter='%(0)resps = requests.get(url,headers= Use_info)page_info = resps.textresps.close()先抓到原创 2021-08-13 14:01:31 · 659 阅读 · 0 评论 -
python爬虫第二章基础-(正则表达初步学习)
这次是用正则表达式抓取re信息,固定匹配含有特殊意义的符号。下面是一些基础的元字符和匹配的相关信息\w 匹配数字字母和下划线 \s 匹配任意换行符 \d 匹配任意数字 \n 匹配换行符 \t 匹配制表符 \W 匹配非数字字母和下划线 \D 匹配非数字 import re#findall 匹配字符串所有的符合正则的内容lst = re.findall(r"\d+",'我的电话是:10086,我同学号码是:10010')pri原创 2021-08-13 12:45:21 · 92 阅读 · 0 评论 -
Python 爬虫基础学习-(爬取搜索引擎首页的小爬虫,web请求过程剖析)
直接跳过安装软件阶段。爬虫本质上通过程序获取互联网上的资源。在python中直接用urllib模块完成对浏览器的模拟工作。from urllib.request import urlopen#获取一个包叫做urllib的,里面可以请求点击网页。url = 'http://www.baidu.com' #选择一个百度的网页reqs= urlopen(url) #很好理解的是,打开一个链接,并把信息传给reqswith open('myfrist_test.html',mode = 'w原创 2021-08-12 08:32:22 · 401 阅读 · 0 评论