如果你从HDFS上导出csv文件,可能存在中文乱码问题。用多个编辑器、工具都不能解决,可以用如下python代码轻松搞定。
导出语句:
hive -e "select * from xx.table" >> /data/tmp/abc.csv
python代码:
import pandas as pd dat = pd.read_table("D:/LBS/yuan_min/1_1024/NearestNeighbor/OutputDir/test1.csv") dat.to_csv('D:/LBS/yuan_min/1_1024/NearestNeighbor/OutputDir/test2.csv', encoding='gbk', index=False, header=False)
本机python环境:
Python 3.6.1 :: Anaconda 4.4.0 (64-bit)
如上内容生成一个py文件,执行即可。