golang 爬取 PPT

35 篇文章 4 订阅

下面代码仅供参考,目前还没有很好的方式判断如何停止,只能设置超时时间,另外其实直接构造http://www.ypppt.com/p/d.php?aid=num的网址即可,不需要这么麻烦,所以仅供参考, 另外这个代码并没有在下载文件的时候使用并发

可以参考我的另外一篇博文,使用上面提到的网页构造进行文件下载
更多爬虫可以见我的 GitHub

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"path/filepath"
	"regexp"
	"strconv"
	"strings"
	"sync"
	"time"
)
var timeout *time.Timer
var once sync.Once

const DOWNLOAD = "./download"
func init(){
	timeout = time.NewTimer(2*time.Second)
	_, err := os.Stat(DOWNLOAD)
	if os.IsNotExist(err){
		os.Mkdir(DOWNLOAD, 0666)
	}
}

type info struct {
	link string
	name string
}

func main() {
	var urlChan = make(chan string, 10)
	// PPT详情页,中间有点击下载按钮
	var pptPageChan = make(chan string, 100)
	// PPT下载页
	var hrefPageChan = make(chan info, 100)
	// 下载链接
	var linkLPageChan = make(chan info, 100)
	// 是否已经完成,这里使用一个超时来判断
	// 严格来说并不是很好
	// 因为网络比较差的时候也会被判断为完成
	// 但是设置时间长一点也没有很大关系
	// 如果在这么长的时间里没有完成,那么肯定是全部下载完了
	var doneChan = make(chan bool, 1)
	var lastPage = make(chan int, 1)

	urlChan <- "http://www.ypppt.com/moban/"
	go GetHTML(urlChan, pptPageChan, lastPage)
	go generateUrl(lastPage, urlChan)
	go GetDownloadPageHref(pptPageChan, hrefPageChan)
 	go GetDownloadLink(hrefPageChan, linkLPageChan)
	go downloadFile(linkLPageChan, doneChan)

	for {
		select {
		case <- doneChan:
			fmt.Println("Done")
			return
		}
	}
}

func generateUrl(lastPage<-chan int, urlChan chan<- string){
	page := <- lastPage
	for i:= 2; i <= page; i ++{
		urlChan <- fmt.Sprintf("http://www.ypppt.com/moban/list-%d.html", i)
	}
	close(urlChan)
}

// 获取每一个PPT的详情界面
// 但是该界面并不是下载PPT的界面
// 下载PPT的界面需要到另外一个界面中
// 这个界面有一个下载按钮通往另一个界面中
func GetHTML(urlChan <- chan string, c chan<- string,lastPage chan<- int) {
	for{
		select {
		case url := <-urlChan:
			fmt.Println(url)
			resp, err := http.Get(url)
			if err != nil {
				fmt.Println("Err: ", err)
			}
			data, err := ioutil.ReadAll(resp.Body)
			if err != nil {
				fmt.Println("Err: ", err)
			}
			resp.Body.Close()
			ulPattern := regexp.MustCompile(`(?s)<ul.*?class="posts clear">(.*?)</ul>`)
			list := ulPattern.FindSubmatch(data)

			hrefPattern := regexp.MustCompile(`(?s)<a href="(.*?)".*?class="p-title".*?</a>`)
			page := regexp.MustCompile(`下一页</a><a.*?href="list-(.*?).html">末页</a>`)
			matches := hrefPattern.FindAllSubmatch(list[1], -1)
			// 获取末尾页
			once.Do(func() {
				p, _ := strconv.Atoi(string(page.FindSubmatch(data)[1]))
				lastPage <- p
				close(lastPage)
			})
			for _, value := range matches {
				c <- "http://www.ypppt.com" + string(value[1])
			}
		}
	}
}

// 获取下载文件的那个界面
// 这个界面中存在文件的下载连接
// 这个函数返回的就是点击 《点击下载》按钮之后跳转的url界面
func GetDownloadPageHref(pptPageChan <-chan string, hrefChan chan<- info ) {
	for{
		select {
		case page := <- pptPageChan:
			resp, err := http.Get(page)
			if err != nil {
				fmt.Println("Err: ", err)
				continue
			}
			data, err := ioutil.ReadAll(resp.Body)
			if err != nil {
				fmt.Println("Err: ", err)
				continue
			}
			resp.Body.Close()

			hrefPattern := regexp.MustCompile(`<a href="(.*?)" rel="nofollow" class="down-button".*?</a>`)
			namePattern := regexp.MustCompile(`(?s)<div class="infoss">.*?<h1>(.*?)</h1>`)
			hrefChan <- info{
				link: "http://www.ypppt.com" + string(hrefPattern.FindSubmatch(data)[1]),
				name: string(namePattern.FindSubmatch(data)[1]) + ".zip",
			}
		}
	}
}

// 然后我们需要从这个下载界面中抽取出来下载的连接
func GetDownloadLink(hrefChan <- chan info, linkChan chan <- info ){
	for {
		select {
		case href := <- hrefChan:
			resp, err := http.Get(href.link)
			if err != nil{
				fmt.Println("Err: ", err)
				continue
			}

			data, err := ioutil.ReadAll(resp.Body)
			if err != nil{
				fmt.Println("Err: ", err)
				continue
			}
			resp.Body.Close()

			// 我们只需要取第一个url即可
			downloadLinkPattern := regexp.MustCompile(`(?s)<ul class="down clear">.*?<li><a href="(.*?)".*?>.*?</ul>`)

			link := string(downloadLinkPattern.FindSubmatch(data)[1])
			if !strings.HasPrefix(link, "http") && len(link) > 8{
				link = "http://www.youpinppt.com" + link[8:]
			}else if len(link) < 8{
				continue
			}
			linkChan <- info{
				link: link,
				name: href.name,
			}

		}
	}
}

// 下载文件
func downloadFile(linkChan <- chan info, done chan<- bool) {
	for{
		select {
		case linkInfo := <- linkChan:
			// 下载文件执行
			err := _download(linkInfo)
			timeout.Reset(10*time.Second)
			if err != nil{
				fmt.Println(err)
				continue
			}
		case <- timeout.C:
			done <- true
		}
	}
}

func _download(info info) error{
	resp, err := http.Get(info.link)
	if err != nil {
		return err
	}
	data , err := ioutil.ReadAll(resp.Body)
	defer resp.Body.Close()
	fmt.Printf("开始下载:%s, link: %s \n", info.name, info.link)
	file, err := os.Create(filepath.Join(DOWNLOAD, info.name))
	file.Write(data)
	defer file.Close()
	if err != nil {
		return err
	}
	return nil
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值