java-CSV内容被Spark读取为null

我正在尝试读取CSV文件,以便可以使用Spark SQL查询它. CSV如下所示:

 

 

16;10;9/6/2018

CSV文件不包含标题,但是我们知道第一列是部门代码,第二列是建筑代码,第三列是格式为m / d / YYYY的日期.

我编写了以下代码以使用自定义架构加载CSV文件:

 

 StructType sch = DataTypes.createStructType(new StructField[] {
            DataTypes.createStructField("department",  DataTypes.IntegerType, true),
            DataTypes.createStructField("building", DataTypes.IntegerType, false),
            DataTypes.createStructField("date", DataTypes.DateType, true),


    });
    Dataset<Row> csvLoad = sparkSession.read().format("csv")
            .option("delimiter", ";")
            .schema(sch)
            .option("header","false")
            .load(somefilePath);
    csvLoad.show(2);

当我使用csvLoad.show(2)时,仅显示以下输出:

 

|department|building|date|
+----------+---------+---+
|null      |null     |null |
|null      |null     |null |

谁能告诉我代码中有什么问题吗?我正在使用spark 2.4版本.

最佳答案

问题在于您的日期字段,因为它具有自定义格式,因此您需要将格式指定为选项:

 

 

Dataset<Row> csvLoad = sparkSession.read().format("csv")
        .option("delimiter", ";")
        .schema(sch)
        .option("header","false")
        .option("dateFormat", "m/d/YYYY")
        .load(somefilePath);

这将导致输出:

 

+----------+--------+----------+
|department|building|      date|
+----------+--------+----------+
|        16|      10|2018-01-06|
+----------+--------+----------+
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,以下是Java异步实现读取千万级别csv文件数据并批量插入到ClickHouse的完整流程代码: 首先需要添加依赖: ```xml <dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clickhouse-jdbc</artifactId> <version>0.2.4</version> </dependency> ``` 然后编写代码: ```java import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.SQLException; import java.util.ArrayList; import java.util.List; import java.util.concurrent.CompletableFuture; import java.util.concurrent.ExecutionException; public class CsvToClickHouse { private static final String JDBC_URL = "jdbc:clickhouse://localhost:8123/default"; private static final String JDBC_USER = "default"; private static final String JDBC_PASSWORD = ""; private static final int BATCH_SIZE = 10000; public static void main(String[] args) throws IOException, SQLException, ExecutionException, InterruptedException { String csvFile = "path/to/csv/file.csv"; String tableName = "my_table"; List<String[]> data = readCsvFile(csvFile); CompletableFuture<Void> future = CompletableFuture.runAsync(() -> { try (Connection connection = DriverManager.getConnection(JDBC_URL, JDBC_USER, JDBC_PASSWORD)) { connection.setAutoCommit(false); String insertSql = "INSERT INTO " + tableName + " (col1, col2, col3) VALUES (?, ?, ?)"; PreparedStatement statement = connection.prepareStatement(insertSql); int count = 0; for (String[] rowData : data) { statement.setString(1, rowData[0]); statement.setString(2, rowData[1]); statement.setString(3, rowData[2]); statement.addBatch(); count++; if (count % BATCH_SIZE == 0) { statement.executeBatch(); connection.commit(); statement.clearBatch(); count = 0; } } if (count > 0) { statement.executeBatch(); connection.commit(); } statement.close(); } catch (SQLException e) { e.printStackTrace(); } }); future.get(); System.out.println("Insert data into ClickHouse successfully!"); } private static List<String[]> readCsvFile(String csvFile) throws IOException { List<String[]> data = new ArrayList<>(); try (BufferedReader br = new BufferedReader(new FileReader(csvFile))) { String line; while ((line = br.readLine()) != null) { String[] rowData = line.split(","); data.add(rowData); } } return data; } } ``` 这个代码会先读取csv文件中的所有数据,然后异步地将数据批量插入到ClickHouse中。其中,每次批量插入的大小为BATCH_SIZE,可以根据实际情况进行调整。 需要注意的是,该代码仅适用于数据量较小的情况。如果需要处理更大的数据量,可以考虑使用分布式计算框架,如Spark、Flink等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值