python爬虫简易流程爬取豆瓣TOP250部电影相关信息-CSDN博客

本文链接：https://blog.csdn.net/weixin_50336369/article/details/113782030

python爬虫简单流程

1.前提准备：
借助Chrome开发者工具（F12）来分析网页，找到需要的数据位置

2.爬取网页：
利用urllib2库获取页面
对每一个页面调用askURL函数获取页面内容
urllib2.Request生成请求
urllib2.urlopen发送请求获取响应，read获取页面内容

3.得到网页内容
对爬取的html文件进行解析，提取数据
使用BeautifulSoup定位特定的标签位置
使用正则表达式找到具体的内容，抽取数据

4.保存数据
利用python中xlwt库将抽取的数据写入Excel表格，或利用sqlite3库，建立数据库

含Excel和自带的数据库
```python


from bs4 import BeautifulSoup      #网页解析 获取数据
import re       #正则表达式 进行文字匹配
import urllib.request,urllib.error   #指定URL 获取网页数据
import xlwt     #进行excel操作
import sqlite3  #进行SQLite数据库操作


def main():
    baseurl = "https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)

    #savepath = "豆瓣电影TOP250.xls"
    dbpath = "movie.db"

    #3.保存数据
   # saveData(datalist,savepath)
    saveDataDB(datalist,dbpath)
    #askURL("https://movie.douban.com/top250?start=")



#影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')   #创建正则表达式对象，表示规则
#影片图片链接的规则
findImgSrc =re.compile(r'<img.*src="(.*?)"',re.S)  #re.S 让换行符包含在字符中
#影片片名的规则
findTitle =re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating =re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#影片评价人数
findPeople =re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')  #(.*)表示有若干字
#找到影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)  #(.*?) 有0个或一个



#爬取网页
def getData(baseurl):
    datalist = []

    for i in range(0,10):    #调用获取网页信息的函数 10次
        url = baseurl+str(i*25)
        html=askURL(url)   #保存获取到的网页源码

        # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):  #查找符合要求的字符串
            #print(item)  #测试：查看电影item全部信息
            data = []     #保存一部电影的所有信息
            item = str(item) #变成字符串

            #影片详情的链接
            link = re.findall(findlink,item)[0]  #re库通过正则表达式查找指定的字符串
            data.append(link)   #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)  #添加图片
            titles=re.findall(findTitle,item)  #片名可能只有中文或英文

            if(len(titles)==2):
                ctitle = titles[0]
                data.append(ctitle)     #添加中文名
                otitle=titles[1].replace("/","")
                data.append(otitle)    #添加外国名
            else:
                data.append(titles[0])
                data.append(' ')   #外国名留空

            rating=re.findall(findRating,item)[0]
            data.append(rating)        #添加评分

            judgeNum = re.findall(findPeople,item)[0]
            data.append(judgeNum)       #添加评价人数

            inq = re.findall(findInq,item)
            if len(inq)!=0:
                inq = inq[0].replace("。","")  #替换句号
                data.append(inq)            #添加概述
            else:
                data.append(" ")   #留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)  #去掉<br/>
            bd = re.sub('/'," ",bd)    #替换/
            data.append(bd.strip())   #strip去掉前后的空格

            datalist.append(data)  #把处理好的一部电影信息放入datalist
    #print(datalist)


    return datalist


#得到指定一个URL的网页内容
def askURL(url):
    head = {    #模拟浏览器头部信息，向豆瓣发送信息
    "User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit /537.36(KHTML,like Gecko) Chrome / 88.0.4324.96Safari / 537.36Edg / 88.0.705.56"
    }   #用户代理：表示告诉豆瓣服务器我们是什么类型
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html



#保存数据
def saveData(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
    sheet = book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价人数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])        #列名
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j]) #数据
    book.save('排名.xls')  # 保存数据表

    print("save...")



def saveDataDB(datalist,dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in datalist:
        for index in range(len(data)):
            if index ==4 or index ==5:
                continue
            data[index] = '"'+data[index]+'"'
        sql = '''
            insert into movie250(
            info_link,pic_link,cname,ename,score,rated,instroduction,info)
            values(%s)'''%",".join(data)
        print(sql)
        cur.execute(sql)
        conn.commit()
    cur.close()
    conn.close()

    print("...")


def init_db(dbpath):
    sql = '''
         create table movie250
         (
         id integer  primary  key autoincrement,
         info_link text,
         pic_link text,
         cname varchar ,
         ename varchar ,
         score numeric ,
         rated numeric ,
         instroduction text,
         info text      
         )
    '''  #创建数据表
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()


if __name__=="__main__":
    main()
    #init_db("movietext.db")
    print("爬取完毕")