Firecrawl源码start采集类源码解读与实战应用

本文链接：https://blog.csdn.net/ylong52/article/details/141225752

“深入解析WebScraperDataProvider：打造高效网页抓取工具” —— 本文将带你深入探讨Start类的源码，解析其如何通过不同的抓取模式（单URL、站点地图、爬取模式）实现高效网页数据抓取。我们将逐一分析关键功能，助你掌握网页抓取的核心技术，轻松应对各类数据采集需求。

public async start(
    inProgress?: (progress: Progress) => void,
    pageOptions?: PageOptions,
    crawlerOptions?: CrawlerOptions,
    concurrencyLimit: number = 5,
    limit: number = 10000,
    maxDepth: number = 10
  ): Promise<{ url: string, html: string }[]> {

    Logger.debug(`Crawler starting with ${this.initialUrl}`);
    // Fetch and parse robots.txt
    try {
      const response = await axios.get(this.robotsTxtUrl, { timeout: axiosTimeout });
      this.robots = robotsParser(this.robotsTxtUrl, response.data);
      Logger.debug(`Crawler robots.txt fetched with ${this.robotsTxtUrl}`);
    } catch (error) {
      Logger.debug(`Failed to fetch robots.txt from ${this.robotsTxtUrl}`);
    }

    if (!crawlerOptions?.ignoreSitemap){
      Logger.debug(`Fetching sitemap links from ${this.initialUrl}`);
      const sitemapLinks = await this.tryFetchSitemapLinks(this.initialUrl);
      if (sitemapLinks.length > 0) {
        let filteredLinks = this.filterLinks(sitemapLinks, limit, maxDepth);
        return filteredLinks.map(link => ({ url: link, html: "" }));
      }
    }

    const urls = await this.crawlUrls(
      [this.initialUrl],
      pageOptions,
      concurrencyLimit,
      inProgress
    );
    
    if (
      urls.length === 0 &&
      this.filterLinks([this.initialUrl], limit, this.maxCrawledDepth).length > 0
    ) {
      return [{ url: this.initialUrl, html: "" }];
    }

    // make sure to run include exclude here again
    const filteredUrls = this.filterLinks(urls.map(urlObj => urlObj.url), limit, this.maxCrawledDepth);
    return filteredUrls.map(url => ({ url, html: urls.find(urlObj => urlObj.url === url)?.html || "" }));
  }

这段TypeScript代码定义了一个名为`start`的异步方法，用于启动一个网页爬虫。该方法接受多个参数，包括可选的进度回调函数、页面选项、爬虫选项、并发限制、限制数量和最大深度。其主要功能是爬取网页内容，并返回一个包含URL和HTML内容的数组。下面是对代码的详细解释：

### 方法参数

- `inProgress?: (progress: Progress) => void`：一个可选的回调函数，用于在爬取过程中报告进度。
- `pageOptions?: PageOptions`：一个可选的页面选项对象，可能包含爬取时的配置。
- `crawlerOptions?: CrawlerOptions`：一个可选的爬虫选项对象，可能包含爬虫的配置。
- `concurrencyLimit: number = 5`：并发限制，默认为5，表示同时爬取的最大页面数。
- `limit: number = 10000`：限制爬取的页面数量，默认为10000。
- `maxDepth: number = 10`：最大爬取深度，默认为10，表示爬取时页面链接的深度。

### 方法实现

1. **日志记录**：记录爬虫开始的信息。
2. **获取robots.txt**：尝试从`robotsTxtUrl`获取robots.txt文件，并解析其内容。如果获取失败，记录错误日志。
3. **获取sitemap链接**：如果`crawlerOptions`中没有设置`ignoreSitemap`，则尝试从初始URL获取sitemap链接。如果获取到的链接数量大于0，则过滤链接并返回。
4. **爬取URL**：调用`crawlUrls`方法，从初始URL开始爬取页面，使用并发限制和进度回调。
5. **处理爬取结果**：如果爬取到的URL数量为0，但过滤后的链接数量大于0，则返回初始URL的页面内容。否则，过滤爬取到的URL，并返回包含URL和HTML内容的数组。

### 注意事项

- **并发限制**：通过`concurrencyLimit`参数控制爬取时的并发数量，可以避免对目标网站造成过大压力。
- **限制数量和深度**：通过`limit`和`maxDepth`参数控制爬取的页面数量和深度，避免爬取过多或过深的内容。
- **robots.txt**：爬虫会尊重robots.txt文件中的规则，避免爬取不允许的页面。
- **sitemap**：如果目标网站提供了sitemap，爬虫会优先爬取sitemap中的链接，以提高爬取效率。

这段代码主要用于网页爬虫的开发，可以用于数据抓取、网站内容分析等场景。在使用时，需要注意目标网站的爬取规则，避免违反网站的使用条款。