一、前提
Maven >= 3.0.4 和 Java 8.x,
使用 IDEA 来开发项目。
二、创建项目
$ mkdir -p /data/datacenter;
$ cd /data/datacenter;
$ mvn archetype:generate \
-DarchetypeGroupId=org.apache.flink \
-DarchetypeArtifactId=flink-quickstart-scala \
-DarchetypeVersion=1.9.1
...
Define value for property 'groupId': org.demo
Define value for property 'artifactId': flink
Define value for property 'version' 1.0-SNAPSHOT: :<回车>
Define value for property 'package' org.demo: : <回车>
Confirm properties configuration:
groupId: org.demo
artifactId: flink
version: 1.0-SNAPSHOT
package: org.demo.flink
Y: : Y
以交互式的方式要求填写项目的 groupId,artifactId 和 package
这里以 flink.demo.org
示例,
$ mv flink flink.demo.org
$ tree flink.demo.org/
flink.demo.org/
├── pom.xml
└── src
└── main
├── resources
│ └── log4j.properties
└── scala
└── org
└── demo
└── flink
├── BatchJob.scala
└── StreamingJob.scala
BatchJob.scala 和 StreamingJob.scala 分别是批处理任务和流处理任务的示例。
现在把项目导入到 IntelliJ IDEA;
三、pom.xml 解析
示例中的 pom 是一个非常好的实践, pom.xml 分三大段
<dependencies></dependencies>
<build></build>
<profiles></profiles>
1. dependencies
Flink 项目,必定需要依赖 Flink 类库,Flink 应用至少需要依赖 Flink APIs。许多应用还会额外依赖连接器类库(比如 Kafka、Cassandra 等)。 当用户运行 Flink 应用时(无论是在 IDE 环境下进行测试,还是部署在分布式环境下),运行时类库都必须可用。
- Flink 核心依赖
此类依赖,我们应对设置 依赖的scope 为 provided,以减小jar包大小,比如:
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-scala_${scala.binary.version}</artifactId>
<version>${flink.version}</version>
<scope>provided</scope>
</dependency>
注意:项目在 IDEA 调试时会出现
no such class
等错误而无法运行, 需要对开发环境进行另外配置,在下面第三点
profile