张小凡vip
码龄11年
  • 8,218,780
    被访问
  • 897
    原创
  • 75
    排名
  • 8,166
    粉丝
关注
提问 私信

个人简介:2012年中级职称软件设计师; 2017年高级职称项目管理师; 2018年CSM敏捷认证; 2019年csdn20周年直播嘉宾; 2020年高级健康管理师; 清华大学出版社《MongoDB游记》数据库教程书作者。 专注于数据挖掘技术与大数据,云计算与存储等技术的学习与研究。 擅长系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。 熟悉数据的采集、数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)整个流程。 熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。 常用开发语言:java、python、c#、perl、sql。

  • 加入CSDN时间: 2011-07-01
博客简介:

直到世界的尽头

博客描述:
计算机的世界有无数道门窗 无论我们打开哪一道 都能收获无穷尽的风景
查看详细资料
  • 8
    领奖
    总分 5,894 当月 168
个人成就
  • 《MongoDB游记》作者
  • 博客专家认证
  • 获得1,602次点赞
  • 内容获得999次评论
  • 获得5,140次收藏
创作历程
  • 15篇
    2022年
  • 26篇
    2021年
  • 74篇
    2020年
  • 72篇
    2019年
  • 161篇
    2018年
  • 114篇
    2017年
  • 74篇
    2016年
  • 127篇
    2015年
  • 157篇
    2014年
  • 180篇
    2013年
成就勋章
TA的专栏
  • 大数据-flink
    付费
    7篇
  • spark on k8s
    付费
    12篇
  • 技术合伙人必备攻略
    付费
    1篇
  • linux基础与shell编程
    付费
    31篇
  • hadoop从基础到实战
    付费
    20篇
  • java从基础到实战
    付费
    34篇
  • 单点登录运用和解析
    付费
    18篇
  • mongodb基础与运用
    付费
    20篇
  • 遇到问题解决方案集锦
    付费
    264篇
  • hbase
    付费
    15篇
  • flink
  • Maven运用
    23篇
  • 数据挖掘
    3篇
  • 响应式开发
    6篇
  • 数据采集
    18篇
  • perl语言的学习和应用
    14篇
  • 项目管理
    8篇
  • mongodb
    57篇
  • c#
    33篇
  • excel
    8篇
  • tc
    2篇
  • myWork
    13篇
  • web
    142篇
  • network
    8篇
  • sqlserver
    12篇
  • network coding
    1篇
  • java
    267篇
  • data mining
    4篇
  • map developing
    16篇
  • system
    8篇
  • linux
    59篇
  • perl
    27篇
  • mysql
    32篇
  • theory
    1篇
  • online store
    8篇
  • think in code
    2篇
  • Coders at work
    6篇
  • regular expression
    4篇
  • maven
    28篇
  • IDE
    45篇
  • tomcat
    27篇
  • apache
    3篇
  • svn
    4篇
  • jenkins
    1篇
  • checkstyle
    3篇
  • hadoop
    41篇
  • virtual machine
    8篇
  • ssh
    29篇
  • multithreading
    6篇
  • 算法
    1篇
  • php
    7篇
  • nginx
    10篇
  • js
    28篇
  • shiro
    6篇
  • 神经网络
    2篇
  • hibernate
    1篇
  • springMVC
    11篇
  • 前端ps
    3篇
  • android
    7篇
  • 面试题
    1篇
  • git
    11篇
  • word
    1篇
  • 响应式开发
    7篇
  • 单点登录sso
    16篇
  • gradle
    8篇
  • 数据分析
    16篇
  • web模块积累
    47篇
  • 支付
    2篇
  • 项目管理
    3篇
  • 数据仓库
    47篇
  • 云存储云计算
    85篇
  • 运维
    3篇
  • python
    69篇
  • 架构
    3篇
  • SpringBoot
    13篇
  • mac
    1篇
  • redis
    5篇
  • kafka
    7篇
  • EFK
    5篇
  • 数据采集
    9篇
  • spark
    10篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
  • 数据库管理
    数据仓库
游记

数据库MongoDB实战

20201027143542346.jpg

京东 当当 天猫

独立博客: www.525.life
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

遇到问题--kafka--接收端报错Parse JSON error Invalid encoding in string. Offset

情况kafka接收业务发送得数据,在接收端json解析失败例如a={"key":"123data"}print(a);原因打印异常信息发现接收端接收到的数据里面包含有特殊符号kafka发送端发出的数据中有特殊符号,导致接收端接收时转换json格式失败。这些异常数据一般是特殊的符号,在txt中肉眼不可见。可以借用bejson在线工具 或者 本地的notepad++软件找到相关异常的符号是哪一个,如果数据量太多,可以借助附录中html代码运行 定位到 特殊符号的前后。我们发现 去掉这个
原创
发布博客 2022.05.13 ·
264 阅读 ·
0 点赞 ·
0 评论

遇到的问题---java---使用SimpleDateFormat进行时区加8小时后出现24点的数据,导致时间异常无法入库

情况因为数据库中保存的是无时区的时间格式,所以在java项目中 获取时间数据后 需要加上东八区的时间。使用代码如下: public static String timeAdd8Hour(Date date) { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd kk:mm:ss ");// System.out.println("格式化输出:" + sdf.format(date)); sdf.setTimeZone(Ti
原创
发布博客 2022.03.31 ·
1646 阅读 ·
0 点赞 ·
0 评论

遇到问题--mongodb---python---pymongo通过_id查询不到数据

情况pymongo通过_id查询不到数据正常使用的pymongo查询语句如下:id="600bcb89436877002d001eaa"import pandas as pdfrom pymongo import *client = MongoClient('mongodb://root:password@mongodb.mydb.com:3717/mydb')db = client['mydb']db_collection = db['comment']results = []f
原创
发布博客 2022.03.16 ·
2708 阅读 ·
0 点赞 ·
0 评论

遇到问题--k8s---数据库同域名切换后pod读取的还是老数据库

情况现有一个 spring-boot的系统部署在k8s的pod中,连接数据库的配置文件 使用的是 域名 order.mydb.com 连接mongodb。因为数据库迁移需要, 新创建了一个mongodb服务,然后把order.mydb.com域名指向 新的mongodb服务。但是 spring-boot的系统 发现 缺少数据,经过排查后,新的mongodb数odb据完整,老的mon godb缺少数据。数据库配置正确,在 spring-boot的系统 所在的 pod和node中 ping 域名 or
原创
发布博客 2022.03.16 ·
2566 阅读 ·
0 点赞 ·
0 评论

flink通过sink的方式写入dorisdb数据源

我们在之前的文章中已经 通过 mongodbsource获取了 相关数据,详情参考flink读取mongodb数据源批处理全量获取实践本篇文章 记录把获取到的数据 sink导入到 dorisdb。创建erp_order_test表在dorisdb的shell命令行中使用命令创建表格create table erp_order_test (order_id STRING, order_time DATETIME) DISTRIBUTED by hash(order_id) BUCKETS 10 P
原创
发布博客 2022.03.09 ·
3853 阅读 ·
0 点赞 ·
0 评论

flink读取mongodb数据源批处理全量获取实践

本章记录 flink读取mongodb数据源的实践,主要用于 全量 批处理获取mongodb的数据。我们在前面的文章中已经学习了如何写一个简单的flink-job项目打包jar包运行详情参考编写flink任务jar包–helloworld我们在flink-job项目基础上新增读取mongodb数据源的功能。引入jar包使用官方driver连接器 <dependency> <groupId>org.mongodb<
原创
发布博客 2022.03.08 ·
3202 阅读 ·
0 点赞 ·
0 评论

flink on k8s模式通过web UI界面查看任务运行情况

我们之前已经成功部署了flink on k8sflink on k8s部署方案实践–详细步骤单纯看pod的log,是无法查看和排查所有情况的。 有时候需要查看job的运行情况。一般我们在运行flink任务时,需要查看它的job运行情况。比较常用的方式就是在flink的UI界面上查看。一般的flink 因为jobmanager 所在的node是固定的,ip也就是固定的,所以能够通过ip或者域名映射后即可很方便的进行访问。flink on k8s比较特别的是jobmanager 是一个在k8s集群中
原创
发布博客 2022.03.08 ·
2241 阅读 ·
0 点赞 ·
0 评论

遇到问题--java--新建maven项目打jar包缺少第三方引入的包maven dependencies报错Caused by: java.lang.ClassNotFoundException

情况我们新建maven项目打成jar包后在flink集群中运行,但是报错Caused by: java.lang.ClassNotFoundException具体报错如下:java.lang.RuntimeException: Could not look up the main(String[]) method from the class task.MongoDBSourceOrderETL: com/ververica/cdc/debezium/DebeziumDeserializationSc
原创
发布博客 2022.03.07 ·
1435 阅读 ·
0 点赞 ·
0 评论

编写flink任务jar包--helloworld

我们在之前的文章中已经成功部署了flink on k8s,并且成功运行了 wordcount.jar完成了单词统计的任务。flink on k8s部署方案实践–详细步骤那如果我们需要实现自己的处理逻辑和任务呢? 比如说 打印一个helloworld,我们就需要自己写一个jar包了,没有现成的包可以直接用了。本篇文章记录如果写一个简单的jar包并在flink中运行,工具使用idea。新建maven项目File --》 New --》 Project默认使用maven1.8版本 点击 next
原创
发布博客 2022.03.04 ·
1617 阅读 ·
0 点赞 ·
0 评论

遇到问题--java--mac版本的idea在控制台中使用mvn命令not found

情况新建了一个maven的项目,默认使用的idea的maven3插件,idea项目中可以正常的下载jar包。但是点击 idea中的Terminal终端 想要进行项目打包时使用命令mvn clean package -Dmaven.test.skip=true报错如下:zhangxiaofans-MacBook-Pro:flink-job joe$ mvn clean package -Dmaven.test.skip=truebash: mvn: command not found原因m
原创
发布博客 2022.03.04 ·
1571 阅读 ·
0 点赞 ·
0 评论

flink on k8s部署方案实践--详细步骤

背景Flink-operator极大的方便了我们管理 Flink 集群及其作业,我们只需要自定义yaml文件就可以做到。Flink 官方还未给出 flink-operator 方案,不过 GoogleCloudPlatform 提供了一种基于 kubebuilder 构建的 flink-operator方案。接下来,将介绍 flink-operator 的安装方式和详细步骤。Flink-operator环境搭建完毕之后,这个operator服务作为flink的控制器,打通了flink和k8s的界限,
原创
发布博客 2022.03.03 ·
2188 阅读 ·
0 点赞 ·
0 评论

flink on k8s部署方案调研

背景flink是目前最常用的大数据流计算处理引擎,一共有local,standalone,yarn,kubernetes四种安装部署机构方案。通常使用yarn进行管理,随着k8s云计算体系越来越成熟, 把flink部署在k8s中,是一种很好的趋势。Standalone和yarn架构模式原理参考Flink 选择 Kubernetes 作为其底层资源管理平台,原因包括两个方面:1)Flink 特性:流式服务一般是常驻进程,经常用于电信网质量监控、商业数据即席分析、实时风控和实时推荐等对稳定性要求比较高的
原创
发布博客 2022.02.10 ·
1468 阅读 ·
0 点赞 ·
1 评论

flink实时读取mongodb方案调研-实现mongodb cdc

背景介绍mongodb目前是很多企业业务上常用的nosql数据库。我们需要对这些业务mongodb数据库进行 数据同步到 数据仓库中进行 数据分析处理。技术选型CDC介绍CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术CDC 技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。CDC 的技术方案非常多,目前业界主流的实现机制可以分为两种:
原创
发布博客 2022.02.09 ·
2740 阅读 ·
0 点赞 ·
0 评论

遇到问题--k8s--kops--新增node无法加入k8s

情况使用kops配置yaml文件进行k8s集群的资源扩张,想要新增几个节点,使用命令如下:kops replace -f manifest.yaml --forcekops update cluster kops update cluster --yeskops rolling-update cluster k8scluster_namekops rolling-update cluster k8scluster_name --yes但是 node 已经ready 却无法加入k8s
原创
发布博客 2022.02.09 ·
1485 阅读 ·
0 点赞 ·
0 评论

遇到问题--presto---mismatched input ‘in‘ expecting {, ‘AND‘, ‘EXCEPT‘, ‘GROUP‘, ‘HAVING‘, ‘INTERSECT‘, ‘

情况在presto中使用查询语句如下:select id from table where id in array[1,2,3]; 报错如下:select id from table where id in array[1,2,3];mismatched input 'in' expecting {<EOF>, 'AND', 'EXCEPT', 'GROUP', 'HAVING', 'INTERSECT', 'LIMIT', 'OR', 'ORDER', 'UNION'}原因
原创
发布博客 2022.02.09 ·
2636 阅读 ·
0 点赞 ·
0 评论

python--爬虫--selenium的简介和使用

selenium简介什么是seleniumselenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;selenium爬虫称之为可视
原创
发布博客 2021.12.09 ·
1455 阅读 ·
1 点赞 ·
0 评论

遇到问题--python---ImportError: Missing optional dependency ‘xlrd‘. Install xlrd >= 1.0.0 for Excel supp

情况使用如下代码读取excel表格import pandas as pdno_rebacks = pd.read_excel("123.xlsx", header=0)报错如下 :ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.完整报错如下:ImportError
原创
发布博客 2021.11.15 ·
1967 阅读 ·
0 点赞 ·
0 评论

遇到问题--scala-gradle--Connect to jcenter.bintray.com:443 [jcenter.bintray.com/34.95.74.180] failed: co

情况项目编译使用gradle进行打包,之前都能正常运行,在没有改动的情况下, 突然报错gradle命令无法成功构建。在ci文件中使用方式如下:deploy-test: image: 123.dkr.ecr.cn-northwest-1.amazonaws.com.cn/operation/gradle:4.8_awscli stage: deploy-test script: - gradle shadowJar - /home/gradle/bin/aws s3 cp build
原创
发布博客 2021.10.26 ·
1356 阅读 ·
0 点赞 ·
0 评论

遇到问题--python--pandas--dataframe进行groupby之后导出数据to_excel内容为空

情况dataframe需要使用groupby 进行数据统计处理得到的df数据如下:但是df导出数据to_excel内容为空原因dataframe使用groupby后是带着分组信息的,并不是dataframe平铺的格式,所以直接导出会有问题。解决方案把带有分组信息的group by结果的索引重建即可。c_df = pd.DataFrame(df)c_df.reset_index(inplace=True)输出如下:附加情况如果报错AttributeError: ‘Series’
原创
发布博客 2021.10.18 ·
2083 阅读 ·
1 点赞 ·
0 评论

遇到问题--spark-scala---Cannot resolve overloaded method ‘udf‘--Defines a Scala closure of 11 arguments

情况我们在使用spark进行运算时,经常需要使用udf进行自定义函数。当我们自定义的函数参数个数小于等于10个时,udf能够正常编译运行。例如 val makeParams: (String, String, String, String, String, String, String, String, String, String) => TestProperty = (orderId: String, barcode: String, deliveryId: String,
原创
发布博客 2021.09.14 ·
1117 阅读 ·
0 点赞 ·
0 评论
加载更多