python爬虫(下)--bs+re+urllib+xlwt+sqlite3

最新推荐文章于 2024-04-26 15:08:19 发布

醒了不起的盖茨比～

最新推荐文章于 2024-04-26 15:08:19 发布

阅读量308

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_45911886/article/details/113507537

版权

笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

爬虫的基本模板+post请求+get请求+访问豆瓣的练习

# -*- coding = utf-8 -*-
# @Time :2021/1/21 10:18
# @Author :小凯
import urllib.request
'''
知道自己的浏览器的信息
var ua=navigator.userAgent;
console.log(ua)
'''


"""
url="https://www.baidu.com"
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "}
data1 = urllib.request.Request(url, headers=headers)
response=urllib.request.urlopen(data1)
print(response.read().decode('utf-8'))
"""


#post 请求
"""
import urllib.parse
url="http://httpbin.org/post"

data=bytes(urllib.parse.urlencode({"hello":"word"}),encoding="utf-8")
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "}

data1 = urllib.request.Request(url, headers=headers)
response=urllib.request.urlopen(data1,data=data)
print(response.read().decode('utf-8'))

"""

#get 请求
#timeout  规定时间  超出就报错
"""
try:
    response=urllib.request.urlopen("http://httpbin.org/get",timeout=0.01)
    print(response.read().decode('utf-8'))
except Exception as e:
    print(e)
    
"""
"""
#headers 是一个键值对
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "
}
data1=urllib.request.Request("http://douban.com/",headers=headers)
response = urllib.request.urlopen(data1)
# print(response.status)  #状态信息
# print(response.getheaders())  #获取全部信息
print(response.getheader("date"))  #获取单个信息

"""

"""
标准测试
# url="http://httpbin.org/post"
headers={
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "
}
data=bytes(urllib.parse.urlencode({"name":"盖世凯"}),encoding="utf-8")
req=urllib.request.Request(url=url,data=data,headers=headers,method="POST")
response=urllib.request.urlopen(req)
print(response.read().decode("utf-8"))
"""
#访问豆瓣
url="https://www.douban.com"
headers={
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "
}
req=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(req)
print(response.read().decode("utf-8"))

用到的外部包+爬取数据+保存数据+解析数据(模板)

# -*- coding = utf-8 -*-
# @Time :2021/1/21 14:30
# @Author :小凯

import bs4      #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #指定URL  获取网页数据
import xlwt     #进行excel操作
import sqlite3      #进行数据库操作

# 一般进行操作
def main():
    baseurl="http://www.baidu.com"
    #爬取网页
    datalist=getData(baseurl)
    #保存数据
    savepath=".\\豆瓣电影Top250.xls"
    saveData(savepath)

def saveData(savepath):
    pass

def getData(baseurl):
    #解析数据

    datalist=[]
    return datalist

if __name__ == '__main__':
    main()

bs4包的基本使用(根据html，css关键字来进行爬取)

# -*- coding = utf-8 -*-
# @Time :2021/1/21 18:19
# @Author :小凯

"""
BeautifulSoup4 将复杂的HTML文档换成一个复杂的树形结构 每个节点都是python对象，所有对象都可以归纳为4种

Tag
NavigableString
BeautifulSoup
Comment

"""
from bs4 import BeautifulSoup
import re
file=open("daohangtiao.html","rb")
html=file.read()
bs=BeautifulSoup(html,"html.parser")

#1  Tag   通过标签及其内容，拿到他所有的第一个内容
# print(bs.title)
# print(bs.ul)
# print(bs.title.string)    #打印出里面的内容


#2 NavifableString   通过标签里的内容(字符串)--标签里面的内容
# print(bs.a.attrs)
# print(bs.a.string)


#3 BeautifulSoup    表示整个文档
# print(bs)
# print(type(bs))

# print(bs.li)

#4Comment 是一个特殊的NavigableString 输出的内容不包含注释符号

#文档的遍历
# print(bs.head.contents)
# print(bs.head.contents[1])   #这里面是有辈分的

#文档的搜索
#1find_all()
#字符串过滤：会查找与字符串完全匹配的内容
# t_list=bs.find_all("a")

#正则表达式：使用search() 方法来匹配内容
# t_list=bs.find_all(re.compile("a"))

#方法：传入一个函数（方法）根据函数的要求来搜索--了解
# def name_is_exists(tag):
#     return tag.has_attr("name")
# t_list=bs.find_all(name_is_exists)
#
# print(t_list)

#2.kwargs       参数

# t_list=bs.find_all(id="head")
# t_list=bs.find_all(href="www.baidu.com")
# t_list=bs.find_all(class_=True)

# for item in t_list:
#     print(item)

#3 text 参数
# t_list=bs.find_all(text="首页")
# t_list=bs.find_all(text=["首页","新闻","哈哈哈哈"])
# t_list=bs.find_all(text=re.compile("\d"))   #使用正则表达式查找包含特定文本的内容（标签里面的字符串)
# for item in t_list:
#     print(item)

#4 limit  参数
# t_list=bs.find_all("a",limit=2)
# for item in t_list:
#     print(item)

#5 css 选择器
# t_list=bs.select(".nav")
# t_list=bs.select("#box1")
# t_list=bs.select("a[class='bri']")   #通过属性来查找
# t_list=bs.select("head > title")   #通过子标签来查找
t_list=bs.select(".mnav~.bri")   #通过兄弟元素来查找
# print(t_list[0].get_text())
for item in t_list:
    print(item)

re正则表达式的使用

# -*- coding = utf-8 -*-
# @Time :2021/1/22 10:18
# @Author :小凯
import re
#创建模式对象
# pat=re.compile("AA")        #定义的正则表达式(模板)
# m=pat.search('AAAAAA')        #字符串 被矫正的字符串
# m=pat.search('AABCAAA')       #search方法，进行比对查找

#没有模式对象
# m=re.search("asd","Aasd")     #前面的字符串是规则(模板)  后面的字符串是被校验的对象
# print(m)

# print(re.findall('a','ASDaDfgAA'))    #前面是(正则表达式)  后面是被校验的字符串
# print(re.findall("[a-z]","abcdefgHIJK"))
# print(re.findall("[A-Z]+","abcdefgHIJKzHEOI"))

#sub

# print(re.sub("a","A","abcdcased"))      #找a用A替换，在第三个字符串中查找'A'
# a=r"aabd-\'"        #经常比较字符串    前面加上r，不用担心转义字符的问题
# print(a)

xlwt表格的使用


import xlwt

# workbook=xlwt.Workbook(encoding="utf-8")    #建造workbook对象
# worksheet=workbook.add_sheet("sheet1")  #创建工作表
# worksheet.write(0,0,'hello')        #写入数据 第一个是‘行’ 第二个是‘列’ 第三个是‘写入的数据’
# workbook.save('student.xls')        #保存到数据表

#练习九九乘法表
workbook=xlwt.Workbook(encoding='utf-8')
worksheet=workbook.add_sheet("sheet1")
for i in range(0,9):
    for j in range(0,9):
        if(j<=i):
            worksheet.write(i,j,"%d * %d = %d"%(j+1,i+1,(i+1)*(j+1)))
workbook.save('student.xls')

开始爬虫

# -*- coding = utf-8 -*-
# @Time :2021/1/21 14:30
# @Author :小凯

import urllib.request
import re
from bs4 import BeautifulSoup
import xlwt
# 一般进行操作
def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 爬取网页
    datalist = getData(baseurl)
    # print(datalist)

    # askURL("https://www.douban.com")    #测试是否已经进入网址

    # 保存数据
    savepath = "豆瓣电影Top250.xls"
    saveData(datalist,savepath)

#爬取影片的连接
findLink=re.compile(r'<a href="(.*?)">')            #创建正则表达式对象 ，表示规则(字符串的模式)
#爬取影片的图片
findImgSrc=re.compile(r'<img.*?src="(.*)"/>',re.S)   #re.S 让换行fu 保存在字符中
#影片的片名
findTitle=re.compile(r'<span class="title">(.*)</span>')
#获取影片的评分
findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#获取评价人数
findJudge=re.compile(r'<span>(\d*)人评价</span>')
#找到相关的概况
findInq=re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
def saveData(datalist,savepath):
    print("save~~~")
    book=xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet=book.add_sheet("豆瓣电影Top250",cell_overwrite_ok=True)
    col=("电影详情连接","图片链接","影片中文名","影片外国名","评分","平分数","概况","相关消息")
    for i in range(0,8):        #创建标题行
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d行了"%(i+1))
        data=datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])

    book.save(savepath)

def getData(baseurl):
    # 解析数据
    datalist = []
    for i in range(0,10):   #调用获取页面信息的函数 10次
        url=baseurl+str(i*25)
        html=askURL(url)    #保存获取到的网页源码
        #逐一解析数据
        soup=BeautifulSoup(html,"html.parser")
        for item in soup.find_all("div",class_="item"):  #靓汤中查找符合条件的--组合进行
            data=[]     #保存一部电影item全部信息
            # print(item)       #已经爬取到了这一页的内容  返回的是数组
            item=str(item)      #变成字符串 在进行正则匹配查找

            # if item:          #获取一个模板
            #     print(item)
            #     break

            link=re.findall(findLink,item)[0]   #re库用来通过正则表达式指定的字符串  返回的也是一个列表
            data.append(link)
            imgSrc=re.findall(findImgSrc,item)[0]
            data.append(imgSrc)
            titles=re.findall(findTitle,item)   #片名可能只有一个中文名字，没有外国名字
            if len(titles)==2:
                ctitle=titles[0]     #添加中文名
                data.append(ctitle)
                otitle=titles[1].replace("/","")   #去除无关的符号
                data.append(otitle)     #添加外国名
            else:
                data.append(titles[0])
                data.append('')     #外国名留空
            rating=re.findall(findRating,item)[0]
            data.append(rating)     #添加评分

            judgeNum=re.findall(findJudge,item)
            data.append(judgeNum)               #添加评价人数

            inq=re.findall(findInq,item)
            if len(inq) !=0:
                inq=inq[0].replace("。","")  #去掉句号
                data.append(inq)   #添加评价
            else:
                data.append("")

            bd=re.findall(findBd,item)[0]
            bd=re.sub('<br(\s+)?/>(\s+)?','',bd)   #去掉br
            bd=re.sub('/','',bd)        #替换/
            data.append(bd.strip())   #去掉前后的空格

            datalist.append(data)       #把处理的电影信息放入datalist中
    return datalist

#得到一个指定的一个URL的网页内容
def askURL(url):
    head={          #模拟浏览器的头部信息
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363 "
    }

    #用户代理  表示告诉豆瓣服务器我们是什么类型的浏览器
    html=""
    request = urllib.request.Request(url=url, headers=head)
    response=urllib.request.urlopen(request)
    html=response.read().decode("utf-8")
    # print(html)  #这里测试就不用测试了

    return html

if __name__ == '__main__':
    main()