最近又用pands处理数据,但是发现数据脏的不行,因此花了好多时间做数据清洗,没有什么经验,就是自己摸索,然后发现可以使用excel做一些很便利的数据清洗,比如数据中出现中文和一些数据中出现都逗号,一个简答的通过excel处理中文数据的方法就是利用函数:
从数字与中文的组合中提取数字:
数字与中文的组合方式不同公式不同。
组合1:数字在前中文在后。
例:123一二三(假设在A1单元格)
公式:=LEFT(A1,2*LEN(A1)-LENB(A1))
组合2:中文在前,数字在后。
例:一二三123
公式:=RIGHT(A1,2*LEN(A1)-LENB(A1))
组合3:数字连续在中间。
例:一二三123一二三
公式:=MID(A1,FIND({1,2,3,4,5,6,7,8,9,0},A1,1),2*LEN(A1)-LENB(A1))
同时如果数据中出现了一些逗号等的特殊字符可以使用替换,可以快速使整理数据。
同时数据处理excel一定要掌握,绕后就是熟练使用一些快捷键,还要掌握一些excel的快速选择方法,例如:
Ctrl+Enter
快速修改数值显示类型:Ctrl+Shift+1 或者2,3,4,5
算了下次有时间一起整理。