sklearn数据挖掘之评论舆情分析
前言
从数据清洗到数据舆情分析模型建立的小尝试,会写的比较详细基础。爬虫部分就会另外单独写,这边主要是处理拿到了的原始数据,基于对旅店住宿的综合情况。一、pandas和数据清洗
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.引入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings #忽略警告
warnings.filterwarnings('ignore')
2.数据预处理
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/2628/1-1.csv')
print(data.head())
print(data.shape)
每列情况:order_id是主键也就是自增的索引,crawf_datatime是数据采集时间,url是数据原始链接,hotel_name是旅店名字,user_level是用户等级。user_name是用户名字。后面依次是评论内容和评分。好的接下去我们先对整体情况看一看,pandas提供的内置函数descrebe()和 info()。
data.describe()
可以发现竟然只有主键有数据,其他项的数据类型或者存在空值或者不是整数和浮点数,通过data.info()发现数据类型是object,这边我们需要对评分进行清理。
data['user_score'].unique()
array(['5.0', '4.5', '1.0', '3.0', '3.5', '4.8'