![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 65
大数据
GE12
这个作者很懒,什么都没留下…
展开
-
Datax跨时区
源库与目标库时区不同时,执行datax.py命令时需要添加如下参数。"-Duser.timezone=xx时区"例如,DataX导入PostgreSQL中的数据,源库是UTC时间,在dataX启动时加上参数"-Duser.timezone=GMT+0"。原创 2022-04-02 11:20:39 · 1172 阅读 · 0 评论 -
es match、match_phrase、query_string和term的区别
一)text字段和keyword字段的区别以下给出一个例子:首先建立一个索引和类型,引入一个keywork的字段:PUT my_index{ "mappings": { "products": { "properties": { "name": { "type": "keyword" } } } }}然后查询是否有索引:GET _cluster/state可以看到已经创建成功:原创 2022-03-31 15:59:35 · 386 阅读 · 0 评论 -
非结构化数据怎么存?——开源对象存储方案介绍
过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)已经成为了越来越多公司的目标。那么Hadoop还能满足我们的要求吗?还是我们需要更多的选择?存储方案如图所示,底层存储大体可以分为四类。对象存储(Object Storage),NoSQL 数据库(NoSQL Sources),关系型数据库(RDBMS Storage),大数据(Hadoop)。对于大量的数转载 2021-11-12 11:26:46 · 976 阅读 · 0 评论 -
优秀的开源Java爬虫项目
1、Geccogithub地址:xtuhcy/geccoGecco是一款用java语言开发的轻量化的易用的网络爬虫。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架,只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。2、Web...原创 2019-12-27 10:42:58 · 397 阅读 · 0 评论