工具:
pyspider
数据库:
mongodb
思路:
- 假设你要根据两个关键字搜索百度知道答案,比如:”购物“和”价格“;
- 组建爬虫的url,需要把这两个关键字转化为url编码的格式,url编码教程详见;
- 取出搜索页面列表上面所有项的url链接;
- 然后,爬取步骤3的url,取出页面上面的question和最佳答案;
- 循环往复,进行2、3、4步骤;
代码:
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
from pyspider.libs.base_handler import *
from urllib.parse import quote, unquote
from pymongo import MongoClient
import datetime
import time
import random
client = MongoClient("自定义数据库接口")
db = client.自定义数据库名
class Handler(BaseHandler):
crawl_config = {
}
key_word1 = quote("自定义关键字1".encode("GB2312"))
key_word2_list = ["自定义关键字2"]
key_word2_list = [quo