sklearn数据挖掘之评论舆情分析

sklearn数据挖掘之评论舆情分析


前言

从数据清洗到数据舆情分析模型建立的小尝试,会写的比较详细基础。爬虫部分就会另外单独写,这边主要是处理拿到了的原始数据,基于对旅店住宿的综合情况。

一、pandas和数据清洗

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings  #忽略警告
warnings.filterwarnings('ignore')

2.数据预处理

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/2628/1-1.csv')
print(data.head())
print(data.shape)

这里可以
每列情况:order_id是主键也就是自增的索引,crawf_datatime是数据采集时间,url是数据原始链接,hotel_name是旅店名字,user_level是用户等级。user_name是用户名字。后面依次是评论内容和评分。好的接下去我们先对整体情况看一看,pandas提供的内置函数descrebe()和 info()。

data.describe()

在这里插入图片描述
可以发现竟然只有主键有数据,其他项的数据类型或者存在空值或者不是整数和浮点数,通过data.info()发现数据类型是object,这边我们需要对评分进行清理。

data['user_score'].unique()
array(['5.0', '4.5', '1.0', '3.0', '3.5', '4.8'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值