使用nightwatch框架爬取数据

话不多说直接上代码,简略教程见上一篇

const urls = [
  'https://www.#####.com/search/groups/?q=Vape Vapor Ottawa&epa=SERP_TAB'
  //......
];

var successResults = [];


var search = (browser, url) => {
  browser
    .url(url)
    .waitForElementVisible('#BrowseResultsContainer',5000,'the page is loaded')
    .pause(1000)
    .timeoutsAsyncScript(600000, function(result) {
       console.log(result);
     })
    .executeAsync(function(successResults, url, done) {
      var parseRaw = (raw) => {
        const name = raw.querySelector('._4bl9 a').text;
        const groupUrl = raw.querySelector('._4bl9 a').getAttribute('href');
        [groupLine, descLine ]  = raw.querySelector('._glo').innerText.split('\n');

        return {
          name,
          groupUrl,
          groupLine,
          descLine,
        };
      };
      var scrollPage = function() {
        return new Promise(function(resolve, reject) {
          var timer = setInterval(function() {
            let currentHeight = document.body.scrollHeight;
            window.scrollTo(0, currentHeight);
            if (document.getElementById('browse_end_of_results_footer')) {
              clearInterval(timer);
              resolve();
            }
          }, 1000);
        });
      };
      scrollPage().then(function() {
        const raws = document.querySelectorAll('._401d');
        var results = [];
        raws.forEach((raw, index) => {
          if (index === raws.length - 1) {
            return;
          }
          results.push(parseRaw(raw));
          return;
        });
        done({
          url,
          results,
        });
      });
    }, [successResults, url], function(results) {
      //console.log('done :' + results.value.url);
      successResults.push(results.value);
    })
    .pause(1000);
};

module.exports = {
   before : function(browser) {
    browser.globals.waitForConditionTimeout = 5000;
  },
  'step one': function (browser) {
    browser
      .url('https://www.facebook.com/')
      .waitForElementVisible('#login_form')
      .setValue('#email', 'account')
      .setValue('#pass', 'password')
      .click('#loginbutton')
      .waitForElementVisible('#userNav')
  },  
  'step two': function(browser) {
    // map search urls
      urls.forEach((url) => {
        search(browser, url);
      });
  },
  'step three': (browser) => {
    console.log(JSON.stringify(successResults));
    browser.end();

  }
};
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值