bwgg-CSDN博客

原创基于Milevus的ANN服务踩坑

基于Milevus的ANN服务踩坑坑1：Exception in thread “main” java.lang.NoClassDefFoundError: org/slf4j/LoggerFactorySLF4J jar 需要被添加到classpath添加依赖。 <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId>

2020-07-22 16:15:23 1314

原创搭建TDH商业大数据平台社区版（附其他主流商业大数据平台下载汇总）

大数据核心原理与实践专栏说明：TDH社区版还挺好用的，无限量续签许可证，如果大家只是想玩玩儿大数据平台，或者刚入行大数据想练手，那么TDH社区版就够用了，避免了你前期安装一系列Hadoop组件的麻烦。想当年，笔者不知道有一站式大数据平台这玩意儿，还是从配置虚拟机到一个一个开源组件安装测试、到最终协调起来工作一步步走来。现在想想真是耗费时间，这也是为什么想了很久还是写下了这篇博文，希...

2018-07-25 13:11:20 9918 10

原创 HDFS读写流程（史上最精炼详细）

概述开始之前先看看其基本属性，HDFS（Hadoop Distributed File System）是GFS的开源实现。特点如下：能够运行在廉价机器上，硬件出错常态，需要具备高容错性流式数据访问，而不是随机读写面向大规模数据集，能够进行批处理、能够横向扩展简单一致性模型，假定文件是一次写入、多次读取缺点：不支持低延迟数据访问不适合大量小文件存储（因为每条元数据占...

2018-07-16 23:32:13 83602 31

原创 kubernetes的pod或instance一直处于pending状态的解决方案

问题复现：6台虚拟机上，kong组件（一个用于部署api服务的组件）副本数为4，总有一两个instance起不起来，一直处于pending状态，如下：解决思路：整体解决思路：pod -> instance -> DeamonSet -> ConfigMap 1、哪里有问题就进去干，话不多说，直接describe一下处于pending...

2018-06-21 16:10:51 65107 5

原创 MCN是什么

MCN是什么MCN（Multi-Channel Network），多频道网络。通常我们说的MCN是一种多频道网络的产品形态，是有形的产品，它将PGC（专业生产内容）、UGC（用户生产内容）有效整合，在资金购买利益驱动下，持续输出内容，从而最终实现商业的稳定变现。MCN不一定是内容生产的主导者，它也可以是资源聚合资源整合者。MCN起源及特点MCN起源于国外的网红经济，该经济模式在国有化之前就已经成熟，且有成功案例，国内在此基础上又锦上添花。MCN特点：具有信息价值、具有效率价值。内容调性明确且丰富、

2020-10-16 17:53:27 1378

原创团队情绪识别与管理

情商是管理情绪的能力，包括管理他人的情绪（社会能力）和管理自己的情绪（个人能力）。如何识别他人情绪善于发现两大线索：语言线索人们用语言表达出来的情绪很少，尤其是当一个人说的话与他的非语言信息不一致时，非语言信息更能准确反应其真实情绪。我们要关注他们说话的方式，而不是内容。非语言线索声调、面部表情、肢体语言声调、面部表情、肢体语言识别他人情绪的关键在于理解他人的非语言信息。...

2019-11-30 22:48:00 1020

原创横向沟通及管理

横向沟通横向，即指的是面向的对象是平级的同事或非直接下属，要把信息有效地传达给对方，这种类型的沟通比纵向沟通要困难一些，为何呢？1、团队成员间的利益冲突。2、管理者缺乏权利支持。3、团队成员高估自己部门的价值。4、团队成员自恃有理，觉得自己说的都对，都有道理，觉得沟通没有意义。需要具备的三大意识信息共享管理者需要及时考虑团队成员何时需要何种类型的信息，当项目遇到困境时，如何将最...

2019-11-30 21:01:19 3609

原创微信公众号爬虫（综合解决方案）

最终解决方案通过搜狗微信先检索公众号，获取公众号主页链接，接着爬每一篇具体文章。一般公司内部会部署自己爬虫平台，通过代理池能最终解决此问题。在没有用代理池遇到验证码反爬措施时，我们自动识别并填写并维护一个cookie池，即能降低验证码出现的频率。遇到验证码时的理想状态是自动识别，可通过购买现成接口或自己用CNN训练个模型。本文用的是人肉识别手动填写…难点通过公众号检索页面检索时，超过一...

2019-05-17 20:39:16 7952 3

原创有效说服三部曲（纯干货无废话）

有效说服三部曲废话不多说，三部曲第一步：分析说服对象第二步：选择说服的途径第三步：其他技巧1.分析说服对象1.1 分析说服对象需求，探索对方意向。从对方的需求中去接近他们，才会有机会进行有效说服。探索对方真正意向，使之与我们的说服目的相关。才能依照他们意向打动他们。交谈前，想想自己意见是否触及对方兴趣所在，是否是对方急切需要的。这样才能得到对方的欢喜和肯定。1.2 分析他们对你所...

2018-12-22 20:03:09 2362

原创 Kafka系列(一)：kafka核心原理架构心得与实践（精炼）

专栏：大数据核心原理与实践关于 kafka 的重要性就不再多说了，它不仅解耦了大数据组件之间的耦合性，而且还能对接流实时计算框架，充当其数据源，同时还能能接收大量数据输入，以类似于消息队列的方式组织统一管理。

2018-11-26 23:16:13 2332 4

原创基于TDH大数据平台安装并上架Sophon可拖拽式人工智能平台

大数据核心原理与实践专栏先决条件首先说明一下，Sophon人工智能平台有单独的安装包SophonWeb，可独立部署，部署方式同社区版TDH安装方式一样，极为简单。即当TDH平台部署即可，过程参考先前博文。但是现在，如果我们生产环境中已经部署好TDH大数据平台，现在又想用Sophon人工智能平台，这时就需要手动上架Sophon应用了。因为SophonWeb收费，我们可以先安装TD...

2018-09-12 14:48:46 3646

原创深入理解 Hive 分区分桶（Inceptor）

大数据核心原理与实践专栏为何分区分桶我们知道传统的DBMS系统一般都具有表分区的功能，通过表分区能够在特定的区域检索数据，减少扫描成本，在一定程度上提高查询效率，当然我们还可以通过进一步在分区上建立索引进一步提升查询效率。在此就不赘述了。在Hive数仓中也有分区分桶的概念，在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区...

2018-08-31 17:36:11 38599 3

原创利用Redis实现异步消息队列优化系统性能（Redis高级应用）

写在前面今天把之前在项目中使用 Redis 做异步消息队列的使用经验总结一下。首先明确使用目的，因为项目中，我们进行某个操作后可能后续会有一系列的其他耗时操作，但是我们不希望将主线程阻塞在此过程中，这时便可将其他操作异步化。举个栗子，当你给这篇博客点赞或评论的时候，博客系统会保存你的点赞评论信息，同时将此操作封装为事件发给异步消息队列，处理过程中会给我发个私信告诉我谁评论了我，或谁给我点了赞，...

2018-08-18 11:16:32 9966 10

原创 SpringBoot 2.x 整合 MyBatis （简单优雅）

创建项目SPRING INITIALIZR网址，直接创建Maven项目

2018-08-10 11:42:35 4891 2

原创 SpringBoot启动报org.springframework.boot.test.context、org.springframework.test.context.junit4不存在的解决方案

问题描述：org.springframework.boot.test.context does not existorg.springframework.test.context.junit4.SpringJUnit4ClassRunner not exsitSpringBoot启动时报如上两个错误。常规操作：右键根项目—maven—update dependencies...

2018-08-02 13:31:15 24741 4

原创 SpringMVC 5.0 请求映射匹配核心源码解读（SpringMVC 5.x 与 SpringMVC 4.x 对比）

基于最新的SpringMVC 5.x版本，源码中加入大量注释分析，结合文字描述，实时比对新旧版本的区别，细致分析SpringMVC中请求匹配原理。现在讲解SpringMVC的请求匹配原理的博文都是基于SpringMVC 4.x 或者更低的版本，所以如果你之前学习过类似的博文你会对urlMap很熟悉。但SpringMVC 5.x 中就不再是这样了，而且目前好像也没有对 5.x 版本的源码分析，这也是我为何写这篇博文的原因。

2018-07-31 00:03:33 3289

原创 kafka无法收到flume采集的数据的解决办法

问题重现在写黑名单那篇博文的时候，我是通过直接copy log日志文件到监控目录下的方式来模拟数据的，在前几次模拟访问日志文件的时候挺正常的，copy进去基本都是秒采集（文件显示直接加了.COMPLETED后缀）。但到后来再往采集目录下copy log日志文件的时候，待采集目录下的文件并不会显示被采集（文件没有.COMPLETED后缀），kafka也一直收不到flume采集来的数据。但重启...

2018-07-23 19:10:54 7711

原创 flume+kafka+slipstream实现黑名单用户访问实时监测

说明之前说过，关于flume和kafka的实践操作就不单独拿出来讲了，打算用一个案例将两者结合，同流式计算一起在具体案例中讲述。本篇博文案例背景：用户访问系统会留下一条条访问记录（除了姓名和身份证号外，还包括ip地址、登陆地点、设备等一系列详情信息），在数据库中我们有一份黑名单用户数据（姓名和身份证号），现在业务需求是我们需要实时监测访问系统的黑名单用户，将访问信息实时写入数据库中，并在前...

2018-07-23 11:21:38 1537 1

原创 HBase二级索引实践（带你感受二级索引的力量）

hyper_table之前HBase SQL BulkLoad环节创建的，我们将数据通过BulkLoad方式导入预先分好Region的hyper_table表中。具体参考如下博文：HBase中利用SQL BulkLoad快速导入数据这里大家只要清楚此表结构即可，结构如下：hyper_table表结构字段 rowkey num country rd...

2018-07-22 16:41:33 15762 6

原创 Sqoop从mysql导入数据至HDFS操作（sqoop初级）

后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例，所以就不单独介绍每个组件具体的用法了，直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立，所以它的实践还是单独拿出来在本篇博文中讲解好了。 MySQL端操作（待导出的数据库）1、创建用于导出数据用户并赋予权限。以root用户登...

2018-07-22 12:40:31 17401 1

原创 HBase系列(三)：利用SQL BulkLoad快速导入海量数据

HBase BulkLoad概述直接用put命令将海量数据导入至HBase会耗费大量时间（HFile合并、Region分割等），而且用原生的put命令导入海量数据，会占用HRegionServer很多资源，HBase集群会变得压力山大，集群基本对外丧失写的能力。其实HBase中数据以HFile文件的形式存储于HDFS，所以我们可以绕过HBase put API，直接将数据加工成HFile文...

2018-07-21 22:23:56 4739 3

原创 HBase系列(二)：HBase架构及读写流程

本篇博文从分析HBase架构开始，首先从架构中各个组成部分开始，接着从HBase写入过程角度入手，分析HFile的Compaction合并、Region的Split分割过程及触发机制。架构分析HBase...

2018-07-20 23:35:27 14054 2

原创 HBase和ElasticSearch索引类型及存储位置

本篇博文主要对HyperBase（HBase）、Search（ElasticSearch）的索引类型及具体存储位置进行概要总结，让大家从整体上了解TDH平台中HyperBase和Search索引的管理。后续会在大数据核心原理与实践中对索引相关知识进行详细讲解。专栏：大数据核心原理与实践ESSearch索引类型存放位置在早期ESSearch1.X版本，会将索引存在内存，但之后...

2018-07-20 17:05:23 2744

原创 HBase系列(一)：HBase表结构及数据模型的理解

专栏：大数据核心原理与实践HBase适用场景首先在搞HBase之前我们要对其建立感性认识，其适用场景如下：并发、简单、随机查询。（注：HBase不太擅长复杂join查询，但可以通过二级索引即全局索引的方式来优化性能，后续博文会进行讲解）半结构化、非结构化数据存储。一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。HBase表结构这...

2018-07-18 21:55:18 26206 8

原创 Sqoop全量数据导入、增量数据导入、并发导入（Sqoop进阶）

Sqoop支持两种方式的全量数据导入和增量数据导入，同时可以指定数据是否以并发形式导入。下面依次来看：全量数据导入就像名字起的那样，全量数据导入就是一次性将所有需要导入的数据，从关系型数据库一次性地导入到Hadoop中（可以是HDFS、Hive等）。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令，具体如下：# 全量数据导入sqoop import...

2018-07-17 20:22:37 32684 10

原创 YARN提交任务作业（以wordcount样例程序为例）

前提已经搭建好Hadoop环境。向YARN提交wordcount任务1、首先在HDFS创建输入文件目录，并将待处理的wordcount文件传入相应的输入文件目录。# 创建输入文件目录hadoop fs -mkdir -p /tmp/jbw/wordcount_input_dir# 将待处理的文件上传至对应目录hadoop fs -put /mnt/disk1/lin...

2018-07-17 11:02:46 7221

原创 kubernetes核心对象 —— kubernetes实用随笔（三）

系列文章： kubernetes和Docker —— kubernetes实用随笔（一）最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）kubernetes核心对象 —— kubernetes实用随笔（三）这篇开始就主要对kubernetes核心对象进行讲解。我们可以把Kubernetes构建容器的过程当做一个制造...

2018-07-15 21:29:13 3966 1

转载 markdown使用说明

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-07-13 16:24:11 262

原创 linux下配置磁盘池可能出现的问题及解决办法

总体流程：初始化擦除磁盘 -> 建立磁盘池配置文件 -> warpdrive挂磁盘池具体步骤：1、准备两块磁盘（如dev/sdb1、dev/sdc1），用wipefs命令擦除磁盘。wipefs -a /dev/sdb1wipefs -a /dev/sdc1 如果擦除失败则可用dd命令暴力初始化，但在用dd命令之前请务必将两...

2018-07-12 20:07:21 4526

原创蚂蚁金服风险大脑-支付风险识别天池大赛 —— 赛后总结

周末这几天都忙着东奔西跑，比赛也在周末结束了，故现来总结一波。这次报名蚂蚁金服风险大赛主要是为了做个案例，用商业发行版TDH大数据平台社区版+可拖拽式快速人工智能平台Sophon来完成。数据预处理（编码2分钟+运行5分钟）：上传至HDFS，用分布式SQL引擎兼数据仓库来完成用于分析的海量业务数据存储。用Java处理数据，得到我们需要的格式。至于...

2018-07-09 19:12:05 4983 3

原创风险大脑-支付风险识别天池大赛（五）处理模型输出并提交结果、“榜上有名”

Ps:若不参加比赛的同志们可忽略此篇。官方大赛提交要求：模型得到的结果：随机森林以及其他分类算法模型会输出当前的预测值和结果为此值的概率。如下所示：假定这里我们规定正样本为0（即无风险的支付行为），负样本为1（即有风险的支付行为）。第一个概率表示预测结果为正样本的概率，第二个概率表示预测结果为负样本的概率，若预测结果为正样本的概率小于0.5，则表示该样本是正样本的概...

2018-07-09 18:44:32 1310

原创风险大脑-支付风险识别天池大赛（番外篇）trick思路

默认无标签的都是黑样本。因为案例背景中有说道，因为风控系统会基于对交易的风险判断而失败掉很多高危交易，这些交易因为被失败了往往没有了标签，而这部分数据又极其重要。所以这里我们可以相信既然系统都判断你是高危交易了，我就直接认为你是风险交易好了。相信蚂蚁金服线上风险评估系统，没毛病吧，哈哈。加上这次共994731条数据，有标签的990006条（16847条有风险，9...

2018-07-05 16:46:08 1394

转载深入理解Java内存模型

网上有很多关于Java内存模型的文章，在《深入理解Java虚拟机》和《Java并发编程的艺术》等书中也都有关于这个知识点的介绍。但是，很多人读完之后还是搞不清楚，甚至有的人说自己更懵了。本文，就来整体的介绍一下Java内存模型，目的很简单，让你读完本文以后，就知道到底Java内存模型是什么，为什么要有Java内存模型，Java内存模型解决了什么问题等。为什么要有内存模型在介绍Java内存模型之前，...

2018-07-04 19:09:18 182

转载 JVM内存结构、内存模型、对象模型

看到一篇好文章，收下了：Java作为一种面向对象的，跨平台语言，其对象、内存等一直是比较难的知识点。而且很多概念的名称看起来又那么相似，很多人会傻傻分不清楚。比如本文我们要讨论的JVM内存结构、Java内存模型和Java对象模型，这就是三个截然不同的概念，但是很多人容易弄混。可以这样说，很多高级开发甚至都搞不不清楚JVM内存结构、Java内存模型和Java对象模型这三者的概念及其间的区别。甚至我见...

2018-07-04 19:07:09 280

转载从微信入手 —— 学习产品经理设计思路（实用版）

一、微信的演化历程：2010年11月19日23时58分，张小龙在腾讯微博上写下了这么一句话：我对iPhone5的唯一期待是，像iPad（3G）一样，不支持电话功能。这样，我少了电话费，但你可以用kik跟我短信，用googlevoice跟我通话，用facetime跟我视频。第二天，2010年11月20日，腾讯微信正式立项。一年零8个月之后的2012年7月，随着微信4.2版本的发布，可以看到那一晚张小...

2018-07-04 16:50:36 1273 1

原创风险大脑-支付风险识别天池大赛（四）处理无标签数据、建立完整模型

上一篇博客讲了利用随机森林模型，在有标签的交易数据基础上建立模型，并简要讲了随机森林一些参数的调优，这篇将会对无标签数据进行处理，并与原训练数据合并送入随机森林模型学习，得到最终模型。并会将测试数据接入，得到最终结果，并写入数据库。本次大赛，整体思路流程图如下：处理已被标记的无标签数据：input_data_prediction <- sophonR.getI...

2018-07-04 11:13:52 1327

原创风险大脑-支付风险识别天池大赛（三）快速建立模型（含调参思路）

这一节开始建立模型，在建模之前，我们先梳理一下思路：思路： 1、首先选出只带标签的数据（有风险和无风险的），进行分析，建立一个 recall rate 风险交易召回率较高的二分类模型。2、接着在无标签的数据上应用此模型，打上标签，并与之前有标签的数据进行合并，形成最终完整训练样本。3、将新的训练样本送入模型，得到最终模型。4、应用测试数据，得到结果...

2018-07-03 16:04:30 1989

原创关于生死的思考 —— AI人死也能复生了

本文出处：https://blog.csdn.net/whdxjbw/article/details/80870511原文链接：关于生死的思考 —— AI人死也能复生了这几天连不上VPN，没办法干活，所以就和大家聊聊前几周印象较深的数字复活这件事吧。到底怎样才算活着？ “有的人活着但他已经死了，有的人死了但他却还活着”，这句看似是思想层面的话语，在如今AI...

2018-06-30 23:21:22 818

原创风险大脑-支付风险识别天池大赛（二）数据存储及检查

本次想把过程写的详细些，所以本节和上一节讲了如何充分利用大数据平台处理数据，如何利用最有效的工具进行数据存储、处理、分析。另外这次准备用Inceptor（分布式SQL引擎，可以理解为Hive数仓）、Sophon、R语言来完成。在下一节，我会将建模过程思路和大家分享。本节详细步骤如下。一、上传数据文件至HDFS目录。训练数据和AB榜测试数据。...

2018-06-28 17:56:29 1480

原创风险大脑-支付风险识别天池大赛（一）数据预处理

大赛提供的所有数据信息是包含在引号里面的（“xxxx”），这样在后续输入模型使用数据前需要做字符串索引。但由于数据量也比较大（将近100万条数据），字符串索引算子会异常慢（被坑回来补上这篇博客），所以这里直接将引号去除，便于后续直接以Double数值类型导入到Inceptor（hive）数仓中，提供给模型训练。 PS：之前试过用SubLine直接替换，按道理它是文本处...

2018-06-28 15:47:42 2688 12

武汉大学UNIX作业.zip

when we typed google.com in the browser and pressed Enter

杭州公交车第三方支付数学建模解题思路

武汉大学硕士英语 2018 年期末考试复习提纲

移动通信中的无线信道指纹特征建模（武大数模答案）

空空如也