如果觉得写的好或对您有帮助,麻烦右边点个赞哦~~
-
数据导入方案对比
- neo4j-admin import
- 最快的方案
- 10s导入15w节点
- Spark(同事)
- 0.5h, 50w节点
- apoc导入hdfs里的csv文件
- 100w个节点数据0.5h导不完
- neo4j-admin import
-
CSV处理经验
- 源数据到CSV,注意将源数据中的英文,进行提前处理
- 字符串内部的引号不提前转义或过滤会引起导入错误
- 如: 的合法时间“为人特让他”发顺丰 被识别为三个字符串
- hash不是唯一映射, 自增长ID可以解决唯一性问题
-
.CSV说明
- Node的类型用:Label做header
- Edge的类型用:TYPE做header
- 官方文档里ID用的是不带引号的字符串,ID是32位内整型(忘记在哪查到的了)
- .CSV中的字符串不一定要有单引号' '或双引号,两种引号应该都可以。但请一定加引号,避免字段内有英文逗号。
- header中propertyName后面的“:类型" 可以省略
- node.csv里加了ID namespace,edge.csv里也得加上才能互相识别出来
- Official Document.