Python数据分析08——数据清洗(二)

很开心,这个系列来到第八篇了。

利用函数或映射进行数据转换

###替换缺失值
在这里,我是直接沿用上一篇的DataFrame对象的。
在这里插入图片描述替换缺失的数据值,我们可以通过replace()函数来实现。
在这里插入图片描述注意:前面的参数是被替换的数据值,后面的参数是新的数据值。
同时,这样的修改也是没有在原来的对象的内存中修改。再次查看DataFrame对象, 可以查看。
在这里插入图片描述
如果要替换多个数据值,可以使用列表作为参数。
在这里插入图片描述不过,这里就要注意了,第一个列表的内容是所有被替换的值,所有的新的数据值是放在后面的列表中的。并且,它们的位置是一一对对应的。还有,我们可以使用字典作为参数。
在这里插入图片描述
注意:这里参数的位置又不一样了,你可以自己找找规律。
下面,我们利用自定义函数来替换数据值。我先新建一个DataFrame对象。

data = {
    'name':['小明', '小红', '小白'],
    'score':[58, 86, 93]
}
df4 = DataFrame(data)

还有,自定义函数的代码。

def f(x):
    if x < 60:
        return '不及格'
    elif 60 <= x < 90:
        return '良好'
    elif x >=90:
        return '优秀'

在这里,我希望你还记得我之前说过的三种函数方式。这里,我用的是map()。
在这里插入图片描述

查看异常值

无可避免,在我们要处理的数据中必然会存在各种各样的异常值,我们要学会如何查看。
新建一个DataFrame对象。

df5 = DataFrame(np.arange(10), columns=['X'])
df5['Y'] = 2 * df5['X']
df5.iloc[9,1] = 222
df5

最先单的方法就是 用散点图来查看异常值。
在这里插入图片描述

虚拟变量

pandas还有一个比较有趣的方法get_dumnies()。它可以实现数据的虚拟。
新建的DataFrame对象如下所示:
在这里插入图片描述
使用get_dumnies()之后如下所示。
在这里插入图片描述
有什么用?这样我们就可以用数据方法表示朝向啦。
可是,还有东南,西北这样的复合的朝向,又改怎么办?下面演示到底该怎么办。
在这里插入图片描述
使用apply()配合lambda函数来实现。
在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 对于python数据分析项目——链家上海手房数据分析(一),我可以提供一些帮助。首先,你可以使用Python中的Pandas库来收集和处理链家上海手房的数据。Pandas可以帮助你从网站上获取相关信息,并针对指定的数据集执行许多不同的操作,以便更好地分析和理解这些数据。此外,还可以使用Matplotlib库来可视化数据,以便更清楚地了解链家上海手房的特征。 ### 回答2: 链家上海手房数据分析是一个使用Python进行数据探索和分析的项目。通过对链家网站上的手房数据进行爬虫操作,我们可以获取到大量的关于上海手房的信息。 在这个项目中,我们首先需要搭建一个爬虫,用于从链家网站上获取到手房的数据。我们可以利用Python中的网络请求库和解析库,如requests和BeautifulSoup,来发送网络请求并解析返回的网页内容,从而获取到我们需要的数据。 获取到数据后,我们可以进行数据清洗和预处理。这一步骤主要是针对数据中存在的缺失值、异常值等问题进行处理,以确保数据的准确性和一致性。我们可以使用Python中的pandas库来进行数据的清洗和预处理操作。 接下来,我们可以对数据进行探索性分析。通过使用Python中的数据可视化库,如matplotlib和seaborn,我们可以对数据的特征进行可视化展示,以便更好地理解数据的分布和关系。我们可以绘制直方图、散点图、箱线图等来探索手房价格、面积、位置等特征与其他变量之间的关系。 最后,我们可以进行一些统计分析,如计算手房价格的平均值、中位数等统计指标,以及进行一些基本的回归分析,如线性回归等。这些分析可以帮助我们揭示出手房市场的一些趋势和规律,为我们做出更好的决策提供依据。 总之,链家上海手房数据分析项目是一个利用Python进行数据爬取、清洗、探索和分析的项目,通过对这些步骤的操作,我们可以更好地理解上海手房市场的情况,并从中获取到有价值的信息。 ### 回答3: 链家是中国最大的房地产经纪公司之一,在其网站上能够找到各个城市的手房信息。本项目选取了链家上海的手房数据进行分析。 首先,我们需要从链家网站上爬取手房的相关数据,包括房屋的价格、面积、区域、朝向、装修情况等等。通过分析这些数据,我们能够得到一些有趣的结论。 比如,我们可以通过计算平均价格和面积,找出上海不同区域手房的价格及面积分布情况。通过这些分布情况,我们可以了解到哪些区域的手房更贵,哪些区域的手房面积更大,帮助购房者做出更明智的决策。 此外,我们还可以通过数据分析,得到不同房屋朝向和装修情况对价格的影响。通过比较不同朝向和装修情况下的价格差异,我们可以了解到市场对于这些因素的偏好,从而也为购房者提供一些参考。 另外,我们还可以通过分析不同时间段内的手房成交量,找出上海手房市场的活跃时段。这对于购房者来说也是非常有用的,因为他们可以根据市场活跃程度来选择合适的时间进行购买。 最后,我们还可以通过数据分析,找出上海手房市场的热门区域和热门楼盘。这些信息对于投资者来说尤为重要,因为他们可以根据市场趋势来选择合适的投资区域和楼盘。 通过对链家上海手房数据的分析,我们可以得到很多有用的信息,帮助购房者和投资者做出更明智的决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值