爬来的几万个网页HTML内容生成DataFrame表然后处理列数据获得我想要的信息

最新推荐文章于 2022-09-24 11:55:54 发布

本少·ゼロ

最新推荐文章于 2022-09-24 11:55:54 发布

阅读量642

点赞数

文章标签： python 爬虫 DataFrame处理数据

本文链接：https://blog.csdn.net/weixin_43689588/article/details/101019469

版权

最后生成的data是Dataframe类型的，它包含url和urldata列，urldata就是爬来的网页信息，但是是整个HTML内容，有代码，有乱码，有拉丁文反正什么事都以。我对其进行筛选，显示出我想要的信息。
其实我就是把<title>里的内容取出来

先导入包

import pymongo
import pandas as pd
import re

连接数据库取数据生成表dataframe命名data

client = pymongo.MongoClient('mongodb://root:123456@centos-l5-vm-01.niracler.com:27017/')
db = client['spider']
data_buffer = {
   'url':[], 'urldata': []}
count =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

本少·ゼロ

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬来的几万个网页HTML内容生成DataFrame表然后处理列数据获得我想要的信息

最后生成的data是Dataframe类型的，它包含url和urldata列，urldata就是爬来的网页信息，但是是整个HTML内容，有代码，有乱码，有拉丁文反正什么事都以。我对其进行筛选，显示出我想要的信息。其实我就是把<title>里的内容取出来先导入包import pymongoimport pandas as pdimport re连接数据库取数据生成表d...
复制链接

扫一扫