最近导入一个csv到数据库中,中间费了写功夫,现记录一下。
最开始报日期格式不对,于是我一个一个查,发现中间有一行,不需要导入,导致数据库列队应错误。
比较的时候,把bad文件中的数据取得一行,放到word中,全局替换逗号为^p,这样会把每一个列变成一行。 ultraedit 也是一样,
notepad++的替换方法不同,search mode 选择extended 将逗号替换成/r/n ,产生的效果是一样的.
这些都对比完成后,报非法数字,一看,原来数字都被变成了千分位,2500 显示成"2,500",于是把csv文件有处理了一下.
这回数据是能导入进去了,但只是部分数据,但我那眼睛观察,数据本身没什么问题呀. 接着就是各种各样的测试,突然发现,失败的记录中
都包含个★ 这个特殊字符. 是编码问题. 解决方法把文件转换成utf-8格式在control文件中字符集改成UTF-8,就可以了,这两个编码应该相同
control文件内容
Load DATA
CHARACTERSET 'UTF8'
INFILE ' '
TRUNCATE
INTO TABLE TEST_11
FIELDS TERMINATED BY ","
OPTIONALLY ENCLOSED BY '"'
TRAILING NULLCOLS
(
COLUMN_01,
COLUMN_02 Date "yyyy/mm/dd hh24:mi:ss",
COLUMN_03 FILLER, 该列不导入
COLUMN_04 Date "mm/dd/yyyy", 日期设置样式
COLUMN_05 Date "mm/dd/yyyy",
COLUMN_06 "REPLACE(:COLUMN_06, ',', '')", 可以应用函数
)