weixin_44433834的博客

人工智能大数据

关注

文章平均质量分 82

关注数：文章数：23 文章阅读量：19001 文章收藏量：111

作者: 恒生LIGHT云社区

这个作者很懒，什么都没留下…

展开

Hadoop 入门笔记—核心组件 YARN

作者：幻好来源：恒生LIGHT云社区基本概述Apache YARN (Yet Another Resource Negotiator) 是 Hadoop 中的资源管理和作业调度系统，在 Hadoop 2.x 时才被引入。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。Yarn在 Hadoop2.x 时才被推出，在 Hadoop1.x 时，主要由 MapReduce 进行资源分配，由于考虑到如果 MapReduce 在计算中挂掉了，那么资源调度也将停止工作.

原创 2021-11-22 09:50:22 · 746 阅读 · 0 评论
Hadoop 入门笔记—核心组件 HDFS

作者：幻好来源：恒生LIGHT云社区基本概念HDFS (Hadoop Distributed File System) 是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。首先，通过名字就能很清楚的明白 HDFS 在 Hadoop 中是应该文件存储的组件。HDFS 的设计之初，主要是考虑到在数据量的不断增长的环境下，由于受制单机资源有限，为了保证系统能够提供高可用、高可靠性以及高扩展等要求，于是通过分布式架构，以达到响应的需求。核心架构HDFS 的.

原创 2021-11-19 13:48:39 · 1584 阅读 · 0 评论
Hadoop 入门笔记—核心组件 MapRuduce

作者：幻好来源：恒生LIGHT云社区基本概念MapReduce 是一个分布式运算程序的编程框架，通过它能将用户将编写好的程序提交，并发运行在一个 Hadoop 集群上。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序。MapReduce 是一个编程模型，分为两个阶段：Map 和 Reduce。输入的数据会先分块，然后由 Map 进行处理，最后输出到 Reduce 中。可以将它理解成对数据整理，然后归纳的一个过程。核心算法MapRed.

原创 2021-11-19 11:06:55 · 1018 阅读 · 0 评论
「Oracle」Oracle高级查询介绍

Oracle高级查询高级查询在数据库的开发过程中应用广泛，从分组查询、多表查询和子查询三个方面介绍Oracle的高级查询。分组查询分组查询是按照一定的规则进行分组，分组以后数据会聚合，需要使用聚合函数，但是使用聚合函数不一定要分组，分组的关键字是group by。常用的聚合函数有：最大值max()，最小值min()，平均值avg()，总和sum()，统计个数count()count函数使用列名时会自动忽略空值nvl函数可以防止count自动忽略空值，它的作用是当comm为空时返回0，因为0是非

原创 2021-10-29 10:35:46 · 427 阅读 · 0 评论
手把手教你在Windows和Linux下安装Redis及了解Redis基本操作

Windows 环境下安装Redisredis-windows：https://github.com/ServiceStack/redis-windows/管理工具RDM：https://rdm.dev/1. 解压redis-windows2. 配置redis-windows修改redis.windows.conf在底部添加上这两行，代表最大内存和设置密码。然后在命令行模式下进入解压后的redis目录，键入下面命令redis-server.exe redis.windows.con

原创 2021-10-19 11:32:30 · 230 阅读 · 0 评论
用vue+eslint+vscode实现代码规范化

目的：这段时间我们组多人开发同一个前端项目，遇到同事提交的代码有大面的格式变更，找到原因是我们vscode安装的代码格式化规范插件和本地配置不同导致的，并且同事设置了保存自动格式化代码，这样的情况容易在合并代码时找不到实际的代码改动点，出现隐患。另一方面也是响应公司代码格式规范化的号召，所以花时间了解了下eslint，跟大家分享。1. eslint介绍lint是检查代码格式工具的一个统称，具体的工具有JsLint、Android-Lint等,本文介绍的eslint就是lint中的一种。eslint官网

原创 2021-10-12 11:17:05 · 701 阅读 · 0 评论
用Python绘制移动均线【含源代码】

上一篇《用Python绘制专业的K线图》，讲解了数据获取、K线图绘制及成交量绘制等内容。本篇将在上一篇的基础上，继续讲解移动均线的绘制。1、获取数据我们从恒有数金融数据社区，获取股票市场历史行情数据。我们获取2021年3月1号至2021年6月1号，恒生电子（600570.SH）的日行情数据，并做简单处理，代码及执行结果如下。# 加载取数与绘图所需的函数包import pandas as pdimport datetimefrom hs_udata import set_token,stock_.

原创 2021-10-08 15:01:18 · 975 阅读 · 0 评论
搭建SonarQube代码质量平台——提升代码质量

作者：幻好来源：恒生LIGHT云社区SonarQube 是管理代码质量一个开放平台，可以快速的定位代码中潜在的或者明显的错误。企业一般会搭建平台对项目的代码进行整体的校验，个人开发者也能在本机配置部署平台对相关代码进行分析。本文将会介绍一下这个工具的安装、配置以及使用。1.SonarQube 简介1. sonar是什么Sonar是一个用于代码质量管理的开源平台，用于管理代码的质量，通过插件形式可以支持二十几种语言的代码质量检测，通过多个维度的检查了快速定位代码中潜在的或者明显的错误。.

原创 2021-08-20 14:10:12 · 445 阅读 · 0 评论
Java代码混淆工具入门——Allatori～

Allatori 是什么Allatori是第二代java代码混淆工具，为你的产品知识产权提供全方位的保护。通过代码混淆，让代码逆向工程几乎变得不可能。除了代码混淆作用，Allatori还可以最小化应用代码大小，提高应用启动速度。使用案例创建一个mixup的maven工程如下图如上图在根目录下创建allatori文件夹，放入配置文件allatori.xml，创建lib文件夹，在其下面放入allatori.jar和allatori-annotations.jar。<config>

原创 2021-08-19 13:50:53 · 864 阅读 · 0 评论
零基础入门云原生-k8s工具介绍～

安装部署神器-KubeadmKubeadm 是一个提供了 kubeadm init 和 kubeadm join 的工具，作为创建 Kubernetes 集群的 “快捷途径” 的最佳实践。kubeadm 通过执行必要的操作来启动和运行最小可用集群。按照设计，它只关注启动引导，而非配置机器。同样的，安装各种 “锦上添花” 的扩展，例如 Kubernetes Dashboard、监控方案、以及特定云平台的扩展，都不在讨论范围内。相反，我们希望在 kubeadm 之上构建更高级别以及更加合规的工具，

原创 2021-08-18 14:19:58 · 276 阅读 · 0 评论
Java开发工程师进阶篇 - Java中隐藏的一些语法糖，你zao吗？

语法糖（Syntactic Sugar），也称糖衣语法，出自英国计算机学家 Peter.J.Landin 发明的一个术语，指的是在计算机语言中添加的某种语法，这种语法对语言的功能并没有影响，但是更方便程序员使用。本文通过实例代码，学习理解 Java 中的语法糖原理及用法，帮助大家在学会如何使用 Java 语法糖的同时，了解这些语法糖背后的原理。自动装箱与拆箱自动装箱就是Java自动将原始类型值转换成对应的对象，比如将int的变量转换成Integer对象，这个过程叫做装箱，反之将Integer对象.

原创 2021-08-16 14:27:30 · 148 阅读 · 0 评论
线上问题排查神器入门——Arthas

Arthas 是什么Arthas是一款阿里巴巴开源的 Java 线上诊断工具。Arthas支持JDK 6+，支持Linux/Mac/Windows，采用命令行交互模式，同时提供丰富的 Tab 自动补全功能，进一步方便进行问题的定位和诊断。官网地址**：**https://arthas.aliyun.com/doc/github地址**：**https://github.com/alibaba/arthasArthas能干什么大家有没有在生产或者测试环境中遇到下列问题。这个类从哪个 jar 包

原创 2021-08-16 14:04:56 · 492 阅读 · 0 评论
Java如何利用poi创建excel并写入数据，看这篇就够啦～

作者：悠悠做神仙来源：恒生LIGHT云社区该部分主要是在做testNG数据驱动时候的一个需求，但是写入excel其实应用场景很多，大家可以参考一下演示代码。其实，除了利用POI写入excel，还可以考虑csv文件写入，文章中也写了一个工具类可供参考。1、利用POI创建excel写入数据首先，导入依赖，在pom文件增加以下依赖： <dependency> <groupId>org.apache.poi</groupId> .

原创 2021-08-05 15:40:59 · 1883 阅读 · 0 评论
大数据之路 ——（一）算法建模中的数据清洗

在当前大数据的背景下，数据处理占了极大的份额，就像一个西红柿做成西红柿炒鸡蛋，需要经过调料整合，菜料清洗，饭菜加工等等才能发布到生产，不，发送到餐桌。这里简单分享一下我对数据清洗的理解，其具有很重要的地位，不然面对着脏乱差的西红柿炒鸡蛋，没人愿意下口。一份未经清洗过的数据一般会存在这些不符合分析要求的问题：比如重复，错误，空值，异常数据等，对于错误数据，因为是业务源头问题，比如性别明明是男却成了女，这些我们无法处理，只能从源端进行规范，就像顾客想吃河南的西红柿，厨房里进的只有山东的，这个厨师没办法解决，

原创 2021-08-05 14:25:42 · 425 阅读 · 0 评论
手把手教你搭建Raneto知识库框架（一）

需求背景：我们一个小组，组长希望搭建一个知识库框架，考虑数据安全，同时不能太过复杂，可快速搭建起来并投入使用（因为没有丰富的机器资源给我们:daku:）。可见，最后这个任务还是交给我了。:chi:技术选型：目前，已知一些比较好的可以作为知识库的框架，给组长反馈，但是都被打回来了。比如：语雀：虽然使用体验极佳，但是老大觉得数据不安全，毕竟是阿里的云知识库。石墨文档：理由也是安全角度，毕竟石墨文档也是云知识库。Confluence：10人以下免费，超过就要花钱，而且相对而言建立和部署比较复杂

原创 2021-08-03 11:26:45 · 813 阅读 · 0 评论
【安全测试工程师】超实用的Web渗透测试学习路线～

前言本文整理的学习路线，清晰明了，重点分明，能快速上手实践，相信想学的同学们都能轻松学完。都是干货啦，先收藏⭐再看吧。本文偏基础能让萌新们快速摸到***测试的门道，少走弯路，也能让正在学习的小伙伴们查漏补缺，也欢迎大佬们在评论区指正错误~先上脑图其实安全测试需要的知识面是非常广的，但跟着教程有重点地学习还是能很快理清思路上手测试的，后续可以自己深入研究，吃透这些领域的知识。首先我们要了解什么是***测试。我们知道业务功能、逻辑的测试有黑盒测试和白盒测试，前者把程序看作一个不能打开的黑盒子，在完

原创 2021-08-02 17:56:32 · 3551 阅读 · 0 评论
Java如何使用Tessdata做OCR图片文字说明，看这篇就够了～

说到文字识别，目前除了用一些现成的api，大概就是 tessdata、canvas或者 ocrad等。1、百度接口用过（可以自己去百度开发者申请，免费的），识别率吧，还可以，但也不是百分百的，但是次数使用有限制，虽然也是够用，但是被限制总是害怕超过不让用。2、canvas的话是需要对图片做具体的处理，涉及到图片的翻转、置灰、文字间隔的设定等等，成功率很高，但是公司产品验证码是各式各样的，没办法用这种方法处理，所以暂时放弃了。3、ocrad这个目前用过其.js版本，识别率还是比较低的，具体使用后面会再写

原创 2021-07-29 14:28:12 · 688 阅读 · 0 评论
人工智能算法小白入门- Jupyter notebook python 基础入门

一、前言笔者在前面的几篇文章中讲述了关于算法学习及入门的一些方法与技能，这其中包括自己的一些学习经历和实践方法。但是，空谈方法难免有些空洞，所以从此开始系统的讲述算法入门应该必备的技能及算法原理、思想。这将是一个系列课程，首先发布文本版本，后续有时间会继续更新细节或添加代码实现细节，欢迎关注。本篇文章主要以jupyter notebook为代码开发环境，开始python 基础编程之旅。二、Jupyter notebook的安装在文章《【人工智能算法小白入门系列】- 如何入门学习成为一名AI算法工程

原创 2021-07-28 13:34:11 · 894 阅读 · 0 评论
浅析大数据框架 Hadoop～

Hadoop 概念及其发展Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案。分布式文件系统（GFS），可用于处理海量网页的存储。分布式计算框架 MAPREDUCE，可用于处理海量网页的索引计算问题。Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAP

原创 2021-07-27 14:04:50 · 167 阅读 · 0 评论
认识数据实时同步神器—Canal～

随着系统业务量的不断扩大，都会使用分布式的方式，同时会有非常多的中间件，如redis、消息队列、大数据存储等，但是实际核心的数据存储依然是存储在数据库，多个数据库之前就会存在数据实时同步的问题，为了解决这个问题，需要采用一些数据实时同步中间件来解决问题。Canal简介Canal是阿里开源的一款基于 Mysql数据库 binlog的增量订阅和消费组件，通过它可以订阅数据库的 binlog日志，然后进行一些数据消费，如数据镜像、数据异构、数据索引、缓存更新等。相对于消息队列，通过这种机制可以实现数据的有.

原创 2021-07-27 11:14:54 · 537 阅读 · 0 评论
大数据流式处理的演变

作者：高二蛋来源：恒生LIGHT云社区随着抖音、快手等短视频平台的兴起，流式计算进入了大家的视线，各大公司使用流式计算根据用户的行为偏好，在短时间内反映在推荐模型中，推荐模型再以低延迟的捕捉用户的行为偏好，从而提供更精准、及时的推荐，这也就是我们刷抖音停不下来的原因；接下来就给大家介绍一下流式数据的前世今生:第一种:特点:实时性好,但是海量数据的时候,高并发就不行了;第二种:特点: 高并发实现了,但是低延迟做不到第三种:(最初第一代流式处理的架构)特点: 把当前计算处理过程当中,所.

原创 2021-06-10 14:47:51 · 304 阅读 · 1 评论
人工智能NLP在金融领域的发展趋势和实践经验

作者：郑骁庆林金曙金融服务行业正在爱上“吞噬”文本数据，即自然语言处理。（The financial services industry is falling in love with text crunching—also known as NLP.）自然语言处理（NLP）在金融科技中主要解决两端的问题，一端是数据，另一端是人。据估计，90%的数据以非结构化的形式呈现，自然语言处理的目标是将非结构化的数据转为结构化表示，然后将语言描述相似的内容汇聚，从而估计所描述事件的可靠性和真实性，进而通

原创 2021-04-27 17:40:24 · 1443 阅读 · 0 评论
在重构中创新——基于“符号知识+神经网络”对传统AI的思考

作者：陈华钧知识图谱的最终目标，是寻找合适的万物机器表示，记录有关世界的知识。在传统的专家系统时代，人们发明了描述逻辑等符号化的知识表示方法来描述万物，人类的自然语言也是符号化的描述客观世界的表示方法；到了互联网时代，人们又设想用本体和语义链接有关万物的数据和知识，这也是知识图谱的起源之一；随着表示学习和神经网络的兴起，人们发现数值化的向量表示更易于捕获那些隐藏的不易于明确表示的知识，并且比起符号表示更易于机器处理。知识图谱同时拥抱机器的符号表示和向量表示，并能将两者有机的结合起来解决搜索、问答、推理、

原创 2021-04-27 17:19:12 · 402 阅读 · 0 评论