import pandas as pd
import numpy as np
import matplotlib. pyplot as plt
import seaborn as sns
corolla1= pd. read_csv( "D:\\2018_BigData\\Python\\Python_files_Notebook\\Decision on buying cars COROLLA or LEVIN\\corolla_1st_deal.csv" , encoding= "ANSI" )
corolla1. head( 1 )
Unnamed: 0
name-text
车型
购买地点
购车经销商
购买时间
nakedprice
driven-distance
发表时间
空间
...
reviews
购车目的1
购车目的2
购车目的3
购车目的4
购车裸车价
行驶里程
支持人数
阅览人数
评论人数
0
1
八号零陈
2018款 双擎 1.8L E-CVT智尚版
北京
北京中业丰田
2018年12月
14.18
2500
2019/1/13
4
...
29
购物
接送小孩
无
无
14.18?万元
2500?公里
有36人支持该口碑
有82222人看过
评论(29)
1 rows × 31 columns
corolla2= corolla1. drop( [ "Unnamed: 0" , "购车裸车价" , "行驶里程" , "支持人数" , "阅览人数" , "评论人数" ] , axis= 1 )
corolla2. head( 1 )
name-text
车型
购买地点
购车经销商
购买时间
nakedprice
driven-distance
发表时间
空间
动力
...
内饰
性价比
购买车型
support
read
reviews
购车目的1
购车目的2
购车目的3
购车目的4
0
八号零陈
2018款 双擎 1.8L E-CVT智尚版
北京
北京中业丰田
2018年12月
14.18
2500
2019/1/13
4
3
...
4
4
卡罗拉 2018款 双擎 1.8L E-CVT智尚版?>>
36
82222
29
购物
接送小孩
无
无
1 rows × 25 columns
levin1= pd. read_csv( "D:\\2018_BigData\\Python\\Python_files_Notebook\\Decision on buying cars COROLLA or LEVIN\\levin_1st_deal.csv" , encoding= "ANSI" )
levin2= levin1. drop( [ "Unnamed: 0" , "购车裸车价" , "行驶里程" , "支持人数" , "阅览人数" , "评论人数" ] , axis= 1 )
levin2. head( 1 )
name-text
车型
购买地点
购车经销商
购买时间
nakedprice
driven-distance
发表时间
空间
text-cont
...
内饰
性价比
购买车型
support
read
reviews
购车目的1
购车目的2
购车目的3
购车目的4
0
VOLVO110
2018款 双擎 1.8H GS-V CVT尊贵版 国V
广州
广汽丰田天河店
2018年11月
13.18
3300
2018/11/29
4
【最满意的一点】最满意当然是油耗,还有就是能在广州摇节能号,广州人都知道摇号不是一般的难啊,...
...
3
3
雷凌 2018款 双擎 1.8H GS-V CVT尊贵版 国V?>>
26
47833
25
上下班
自驾游
泡妞
跑长途
1 rows × 25 columns
corolla2. shape
(405, 25)
levin2. shape
(340, 25)
plt. hist( corolla2[ 'nakedprice' ] , bins= 18 )
plt. xlabel( "购车裸车价" , fontproperties= "SimHei" , fontsize= 18 )
plt. ylabel( "数量" , fontproperties= "SimHei" , fontsize= 18 )
plt. title( "Nakedprice Distribution" , fontsize= 20 )
plt. show( )
price= corolla2[ "nakedprice" ]
price. head( 5 )
0 14.18
1 11.28
2 14.43
3 14.18
4 14.28
Name: nakedprice, dtype: float64
area_price= corolla2[ [ "nakedprice" , "购买地点" ] ]
area_price. head( 5 )
nakedprice
购买地点
0
14.18
北京
1
11.28
泉州
2
14.43
郑州
3
14.18
沈阳
4
14.28
上海