最后生成的data是Dataframe类型的,它包含url和urldata列,urldata就是爬来的网页信息,但是是整个HTML内容,有代码,有乱码,有拉丁文反正什么事都以。我对其进行筛选,显示出我想要的信息。
其实我就是把<title>里的内容取出来
- 先导入包
import pymongo
import pandas as pd
import re
- 连接数据库取数据生成表dataframe命名data
client = pymongo.MongoClient('mongodb://root:123456@centos-l5-vm-01.niracler.com:27017/')
db = client['spider']
data_buffer = {
'url':[], 'urldata': []}
count =