用python爬取交大图书馆图书信息

由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用

# -*- coding=utf-8 -*-
#@author: 、Edgar
#@version: 1.1
import requests
import urllib.error
from bs4 import BeautifulSoup
import time
import threading

def get_html(url):
    """
    获取网页的源代码
    """
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                            "Chrome/76.0.3809.100 Safari/537.36"}
    try:
        response = requests.get(url, headers=header)
        response.encoding = response.apparent_encoding
    except requests.HTTPError as e:
        print(e)
    except urllib.error.URLError as e:
        print(e)
    else:
        return response.text


def is_last_page(soup):
    """
    判断该网页是不是最后一页了, 如果是的话,就返回False代表是最后一页
    否则的话返回下一页的网页地址
    """
    target = soup.find('a', {"title": "Next"})
    if target is None:
        return False
    else:
        return target["href"]


def spider(soup):
    """
    爬取是搜索后的网页,获得书名,余量等
    """
    tr_list = soup.find("table", {"cellspacing": "1"}).findAll("tr", {"valign": "baseline"})
    total_data = ''

    
    for tr in tr_list:
        td_list = tr.findAll("td")
        num = td_list[0].get_text().replace(" ", '').strip()
        num = "序号: " + num
        call_num = td_list[2].get_text().replace(" ", '').strip()
        call_num = "索书号: " + call_num
        name = td_list[3].get_text().replace("\n", '').strip()
        name = "书名: " + name
        author = td_list[4].get_text().replace("\n", '').strip()
        author = "作者: " + author
        year = td_list[5].get_text().replace(" ", '').strip()
        year = "年代: " + year
        info = td_list[6].get_text().replace(" ", '').strip()
        info = "馆名(总/借出): " + info
        # 获得链接,可从而获取更多的信息
        try:
            info_link = td_list[6].a["href"]
        except Exception :
            info_link = None
        sort = td_list[7].get_text().replace(" ", '').strip()
        sort = "类型: " + sort
        data = num + '\n' + call_num + '\n' + name + '\n' + author + '\n' + year + '\n' + info + '\n' + sort + '\n'
        if info_link is None:
            spider_more_data = "无详细信息 \n"
        else:
            spider_more_data = spider_more(info_link)
        total_data = data + spider_more_data
        file.write(total_data)
        file.write("-"*58+'\n')
        total_data = ''


def spider_more(url):
    """
    获得更多关于书籍
    """
    html = get_html(url)
    soup = BeautifulSoup(html, "lxml")
    tr_list = soup.findAll("table", {"cellspacing": "2"})[1].find_all("tr")[1:]
    num = 0
    total_data =''
    for tr in tr_list:
        num += 1
        td = tr.findAll("td")
        status = td[2].get_text()
        status = "单册状态: " + status
        return_time = td[3].get_text()
        return_time = "应还时间: " + return_time
        location = td[5].get_text()
        location = "馆藏位置: " + location
        bar_code = td[8].get_text()
        bar_code = "条码: " + bar_code
        data ="第{}本书具体信息:\n".format(num) + status + "\n" + return_time +  "\n" + location +  "\n" + bar_code + "\n\n"
        total_data += data
    return "\n" + total_data



def main(url):
    """
    首先爬取第一页的信息,并且判断第一页是否是最后一页
    如果不是最后一页,在进行同样的操作
    """
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    spider(soup)
    flag = is_last_page(soup)
    while flag:
        url = flag
        html = get_html(url)
        soup = BeautifulSoup(html, 'lxml')
        spider(soup)
        flag = is_last_page(soup)
        time.sleep(6)


class promote(threading.Thread):
    def run(self):
        print("正在下载数据中: ", end="")
        while 1:
            print(".", flush=True,end="")
            time.sleep(2)

if __name__ == "__main__":
    file = open("lib_data.txt", "a", encoding="utf-8")
    url = input("请输入您在交大图书馆搜索后的网页链接(复制粘贴即可): ")
    pro = promote()
    pro.setDaemon(True)
    pro.start()
    start_time = time.time()
    main(url)
    end_time = time.time()
    print("\n共用时 {} s".format(end_time-start_time))

程序执行之后直接生成 txt 文件,可直接查看

附:
交大图书馆官网:http://www.lib.sjtu.edu.cn/f/main/index.shtml

今日发现交大图书馆在首页搜索之后样式不是之前的样式了,推荐搜索的时候在
http://opac.lib.sjtu.edu.cn 搜不会出现其他问题1


  1. 2019年9月22日 ↩︎

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取南京图书馆的数据需要先了解南京图书馆的网站结构和数据接口。一般来说,可以通过以下步骤进行爬取: 1. 打开南京图书馆的网站,找到需要爬取的数据的网页地址,比如图书检索页面。 2. 使用 Python 的 requests 库向该网页发送 GET 请求,获取网页的 HTML 内容。 3. 使用 BeautifulSoup 库解析 HTML 内容,提取需要的数据。 4. 如果需要爬取多页数据,需要模拟翻页操作,即发送多个 GET 请求获取每一页的 HTML 内容,然后解析并合并数据。 下面是一个简单的示例代码,用于爬取南京图书馆图书检索页面的数据: ```python import requests from bs4 import BeautifulSoup url = 'http://opac.njlib.cn/opac/search' params = {'q': 'python', 'searchType': 'all', 'rows': '10', 'sortWay': 'score', 'sortOrder': 'desc'} response = requests.get(url, params=params) soup = BeautifulSoup(response.content, 'html.parser') # 提取搜索结果列表 book_list = soup.find_all('div', {'class': 'bookmeta'}) for book in book_list: # 提取书名和作者 title = book.find('h3').text.strip() author = book.find('p', {'class': 'author'}).text.strip() # 打印书名和作者 print('《{}》作者:{}'.format(title, author)) ``` 上述代码中,首先定义了要爬取的网址和查询参数,然后使用 requests 库发送 GET 请求获取网页内容。接着,使用 BeautifulSoup 库解析 HTML 内容,提取搜索结果列表。最后,循环遍历搜索结果列表,提取每本书的书名和作者,并打印出来。 需要注意的是,爬取网站数据要遵守法律法规和网站规定,不能进行恶意爬取或者侵犯用户隐私。此外,需要适度控制爬取频率,以免给网站带来过大的负担。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值