NYAIoT-CSDN博客

原创使用 Azure Databricks 做ETL

使用 Azure Databricks 做ETL本文使用 Azure Databricks 执行 ETL（提取、转换和加载数据）操作。将数据从 Azure Data Lake Storage Gen2 提取到 Azure Databricks 中，在 Azure Databricks 中对数据运行转换操作，然后将转换的数据加载到 Azure Synapse Analytics 中。本文的步骤使用 Azure Databricks 的 Azure Synapse 连接器将数据传输到 Azure Da.

2021-02-25 15:09:19 1817

原创 Ubuntu18上远程安装python3.8与pyodbc

安装python3.8Ubuntu18.04自带python3.6$ python3Python 3.6.9 (default, Oct 8 2020, 12:12:24) [GCC 8.4.0] on linuxType "help", "copyright", "credits" or "license" for more information.>>> exit()$ sudo apt updateHit:1 http://azure.archive.ubunt

2021-02-04 10:40:14 769 1

原创 Python3.6交叉编译至ARM（含zlib+第三方库）

准备虚拟机：VMware Workstation 15 Pro平台：Ubuntu 14.04 LTS (32-bit)目标：MC-AM335x-Lite V2.3 (ARM)Python 3.6.11编译工具链：arm-linux-gnueabihf- (2013.03)编译zlibzlib下载这里使用的是zlib-1.2.11tar xzvf zlib-1.2.11.tar.gz # 解压缩cd zlib-1.2.11编译主机版zlib./configuremakes

2020-07-16 13:38:38 7127 1

原创深度学习之三元组损失原理与选取策略

三元组损失概述三元组损失（Triplet loss）函数是当前应用较为广泛的一种损失函数，最早由Google研究团队在论文《FaceNet：A Unified Embedding for Face Recognition》所提出，常用在人脸识别任务中。目的是做到非同类极相似样本的区分，比如说对兄弟二人的区分。所以，Triplet loss的优势在于细节区分，即当两个输入相似时，Triplet loss能够更好地对细节进行建模，相当于加入了两个输入差异性差异的度量，学习到输入的更好表示，从而在上述两个任务

2020-06-23 17:28:30 31096 4

原创 ABP 中的多租户与依赖注入入门理解

ABP是“ASP.NET Boilerplate Project (ASP.NET样板项目)”的简称。ASP.NET Boilerplate是一个用最佳实践和流行技术开发现代WEB应用程序的新起点，它旨在成为一个通用的WEB应用程序基础框架和项目模板。ASP.NET Boilerplate 基于DDD的经典分层架构思想，实现了众多DDD的概念（但没有实现所有DDD的概念）。...

2020-06-21 16:53:14 1207

原创 EMQ X Broker连接EMQ X kuiper开发MongoDB插件教程

1、安装emqx broker官网安装教程下载emqx broker安装包解压移动到emqx的安装包下启动开启命令./bin/emqx start如果开启成功的话会显示EMQ X Broker v4.0.0 is started successfully!查看localhost:18083会显示界面，默认账号是admin，默认密码是public，默认是英文版本，中文版本去系统里设置一下就好了。2、使用kuiper连接emqx（这一步可以看看）下载kuipe

2020-06-02 14:44:25 1496

原创微软Azure IoT驱动数字化变革

微软Azure IoT驱动数字化变革线上分享会（6月4号）微软作为全球范围内IoT领域的领军者，以微软智能云Azure为基础和核心，推动包括物联网、机器学习、微服务、人工智能等在内的新技术的发展，为企业转型提供强大动力，实现“予力全球每一个人，每一组织，成就不凡”的新时代使命。上海南洋万邦软件技术有限公司作为微软在国内第一家物联网（IoT）解决方案聚合商，依托于母公司上海仪电集团和云赛智联定位智慧城市建设领军者以及自身20多年来雄厚技术实力，将持秉承合作开放的态度，针对市场推广、合作伙伴..

2020-05-27 18:58:34 379

原创如何运行一个Vue项目

如何运行一个Vue项目一开始刚接手项目内的vue.js，或者在GitHub上找到vue.js的开源项目，会发现不知如何运行这个项目。通过查阅网上教程，成功搭建好项目环境，同时对前段工程化有了朦朦胧胧的认知，因此将环境搭建过程分享给大家。1. 环境安装首先，列出来我们需要的东西：node.js环境（npm包管理器）vue-cli 脚手架构建工具cnpm npm的淘宝镜像安装node...

2020-02-16 15:25:32 38754 1

原创神经网络（neural network）的应用——自编码器（Autoencoder）

神经网络（neural network）的应用——自编码器（Autoencoder）1. 自编码器简介自编码器（Autoencoder，AE），是一种利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出。简单来说，就是可以自动实现编码与解码操作过程的网络模型，并且它的输入 x 与标签 y 相同，我们通过最小化标签 y 与输出 r 之间的误...

2020-01-06 15:03:35 7960

原创 AKS+IoT Edge connector+IoT hub

1.AKS 在之前的文章中，已经介绍了AKS，链接如https://blog.csdn.net/zenglaoshi/article/details/103286780，此处不再介绍。2.IOT Edge connector Azure IoT connector利用virtual Kubernetes，IoT Edge Provide与Azure IoT hub连接。它将Kube...

2019-12-23 14:52:41 895

原创 Modbus协议理解

Modbus协议理解Modbus是MODICON公司于1979年开发的一种通讯协议，是一种工业现场总线协议标准。1996年施耐德公司推出了基于以太网TCP/IP的Modbus协议——ModbusTCP。Modbus协议是一项应用层报文传输协议，包括ASCII、RTU、TCP三种报文类型，协议本身并没有定义物理层，只是定义了控制器能够认识和使用的消息结构，而不管他们是经过何种网络进行通信的。标准的...

2019-11-28 20:09:28 3096

原创 MQTT协议理解---报文格式

1.MQTT 是什么MQTT 的全称为 Message Queue Telemetry Transport，是在 1999 年，由 IBM 的 Andy Stanford-Clark 和 Arcom 的 Arlen Nipper 为了一个通过卫星网络连接输油管道的项目开发的。为了满足低电量消耗和低网络带宽的需求，MQTT 协议在设计之初就包含了以下一些特点：实现简单提供数据传输的 QoS...

2019-11-28 20:06:37 3513 1

原创 MQTT协议理解---发布与订阅

4.1 订阅与发布模型在第一课中，我们介绍了 MQTT 基于订阅与发布的消息模型，MQTT 协议的订阅与发布是基于主题的（Topic），一个典型的 MQTT 消息发送与接收的流程如下：ClientA 连接到 Broker；ClientB 连接到 Broker，并订阅主题 Topic1；ClientA 发送给 Broker 一条消息，主题为 Topic1；Broker 收到 ClientA...

2019-11-28 19:59:48 26918 4

原创用VNC搭建Ubuntu VNC可视化界面

VNC的安装与配置安装之前先输入apt-get update获取最新套件的信息。输入以下命令安装VNC，安装过程中需要输入Y来确认sudo apt-get install vnc4server启动VNCvncserver并设置密码看到 New ‘############ (root)’ desktop is ############:1字样的时候，说明启动成功。...

2019-11-28 19:55:54 919

原创分布式日志收集框架Flume---实现网络端口监听日志收集

flume Overview：Apache Flume是一个分布式，可靠且可用的系统，用于有效地从许多不同的源收集，聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的，因此Flume可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据，电子邮件消息以及几乎任何可能的数据源。Apache Flume是Apache S...

2019-11-28 19:53:35 422

原创分布式发布订阅消息系统Kafka---集群搭建

OverviewKafka是distributed streaming platform。streaming platform有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。具有容错能力，能持久存储记录流。处理发生的记录流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实时流应用程序...

2019-11-28 19:52:11 427

原创 Hadoop集群的搭建和使用

OverviewHadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可...

2019-11-28 19:49:58 301

原创 YARN资源调度框架搭建和应用

一、产生的背景1、MapReduce1.0存在的问题，架构如图所示:1)单点故障:JobTracker只有一个,JobTracker挂了整个集群就没办法使用了;2)一个人干的活太多：JobTracker负责接收来自各个JobTracker节点的RPC请求,压力会很大,限制了集群的扩展;随着节点规模增大之后,JobTracker就成为一个瓶颈;2、资源利用率和运维成本1)在没有YARN...

2019-11-28 19:47:28 328

原创 Hive如何搭建和使用

OverviewApache Hive数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。一、Hive环境搭建1.安装一个mysqlUbuntu 16.04下安装MySQL的过程：首先执行下面三条命令：sudo apt-get install mysql-server...

2019-11-28 19:44:10 378

原创 Spark的前世今生

Spark****产生背景➢ 计算处理框架种类多，选型复杂批处理：MapReduce、Hive、Pig流式计算：Storm交互式计算：Impala、Presto机器学习算法：Mahout➢ 希望能够简化技术选型，在一个统一的框架下，能够完成批处理、流式计算、交互式计算、机器学习算法等Spark****简介➢ 由加州大学伯克利分校的AMP实验室开源➢ 大规模分布式通用计算引擎➢ ...

2019-11-28 19:41:51 304

原创数据仓库—Hbase

Overview HBase是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机、实时读/写访问时，请使用HBase。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。HBase是一个开源的，分布式的，版本化的非关系数据库，模仿Google的Bigtable：结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供...

2019-11-28 19:39:18 899

原创图解极大似然估计

机器学习之数学之旅图解极大似然估计$(maximum likelihood estimation with 3D visualization)$极大似然估计**是神经网络和很多复杂模型得以优化求解的理论基础, 我们今天来学习并试着深入理解极大似然估计的原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观的认识.要理解极大似然估计是什么, 首先要明白概率密度(质量)函数...

2019-11-27 22:42:50 2390

原创大数定理，中心极限定理和最大似然估计

大数定理大数定理是概率统计的基石，也是赌博行业的底层逻辑，当我们在赌场里面一直赌下去的时候，只要赌场在设计的时候你赢的期望小于零，那么从概率上讲你一定会输，这就是赌场能稳赚不赔的原因。当然也有一些数学天才利用概率统计在赌场赚了很多钱，比如电影《决胜21点》中，玩家正常的胜率只有46%，如果按照电影中的算法，算牌的点数每增加一点，玩家获胜的概率增加0.5%，那么点数至少需要达到8点以上才能算...

2019-11-27 11:07:04 2116

原创大数据与Elasticsearch结合kibana可视化展示

大数据与Elasticsearch结合kibana可视化展示安装hadoop2.7.3版本（官方推荐）（PS：hadoop3.+以上不支持，试过），hadoop可以搭全分布式和伪分布式，我是用伪分布式。一、Hadoop伪分布式搭建：解压Hadoop2.7.3：1、固定ip将集群中每一台主机ip设为静态，并且可以相互通信先使用ifconfig查看当前网卡名称2 设置每一台机器自己的主机...

2019-11-26 18:01:35 1120

原创将博客搬至CSDN

将博客搬家至CSDN：https://blog.csdn.net/zenglaoshi

2019-11-26 17:58:00 73

原创优化算法--Adagrad，RMSProp，AdaDelta，Adam

优化算法–Adagrad自适应学习率随机梯度下降算法，目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子，假设目标函数为fff，自变量为一个二维向量[x1,x2]⊤[x_1, x_2]^\top[x1,x2]⊤，该向量中每一个元素在迭代时都使用相同的学习率。例如，在学习率为η\etaη的梯度下降中，元素x1x_1x1和x2x_2x2都使用相同的学习率η\...

2019-11-26 17:36:52 1353

原创优化算法--momentum

momentum 梯度下降或随机梯度下降都是目标函数在自变量当前位置下降最快的方向，然而，每次迭代都沿着最陡方向并且只考虑当前位置，会使得目标函数很容易陷入局部最小值和鞍点。可以看到，同一位置上，目标函数在竖直方向（x2x_2x2轴方向）比在水平方向（x1x_1x1轴方向）的斜率的绝对值更大。因此，给定学习率，梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那...

2019-11-25 23:52:06 2400

原创优化算法--SGD，batch SGD

优化算法–SGD，batch SGD 优化算法的目标函数是一个基于训练数据集的损失函数，优化的目标在于降低训练误差。在深度学习中主要面临两个挑战：局部最小值和鞍点。梯度下降和SGD 多维梯度下降：目标函数的输入为向量，输出为标量。假设目标函数f:Rd→Rf: \mathbb{R}^d \rightarrow \mathbb{R}f:Rd→R的输入是一个ddd维向量x=[x1,x2,…...

2019-11-24 22:58:57 1381 2

原创 Azure Data Factory操作使用介绍

Azure Data Factory操作使用介绍在大数据环境中，原始、散乱的数据通常存储在关系、非关系和其他存储系统中。但是，就其本身而言，原始数据没有适当的上下文或含义来为分析师、数据科学家或业务决策人提供有意义的见解。大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。Azure Data Factory是为这些复杂的混合提取-转换-加载 (ET...

2019-11-24 13:11:10 7130

原创机器学习和概率统计的关系

机器学习和概率统计的关系机器学习是一个比较宽泛的概念，主要包括有监督学习，无监督学习，强化学习等，每个分类又有很多不同的算法，在使用时需要根据不同的场景进行选择，这个将会在后续的博客中涉及，这里就不展开叙述。现在的机器学习主要都是基于对现有样本的观测分析（统计）然后再对未知样本的预测（概率），我自己一个不严谨的说法就是机器学习是一种特殊的概率统计表现形式。[外链图片转存失败,源站可能有防盗...

2019-11-24 13:09:04 3726

原创 IoT和AI入门概念

写在前面　　　　应同事的要求，整理一些IoT和AI的基本概念，能够对基本概念有所了解，并且可以回答一些客户的专业问题。我只能尝试从自己的角度整理一些技术概念和架构体系，相关链接如下，欢迎大家多多交流。IoT的基本概念　　1，物联网是什么（百度百科）：https://baike.baidu.com/item/%E7%89%A9%E8%81%94%E7%BD%91/7306...

2019-06-16 14:39:00 359

原创 Azure Kubernetes 服务 (AKS)

一、首先创建集群 1，注意：一定要选择Kubernets Service（红框处），上面的那一堆虚拟机都没有用，　　2，设置好相关属性，集群大小可后面更改节点数，但是节点的大小不可更改二、登陆集群在自己的机器上登陆K8S集群（win10）登陆AzureChinaCloud环境：az cloud set -n AzureChinaCloud登陆：az ...

2019-05-05 20:30:00 1012

原创 Kubernetes基本概念与架构

Kubernetes，面向云原生应用的新“云平台”Kubernetes：以google Brog为原型Kubernetes的成长历程：l 2014年，Kubernetes正式由google开源l 2015年，谷歌将Kubernetes捐给Linux基金会下属的云原声计算基金会-CNCFl 2017年，Kubernetes战胜Swarm和 Mesos，成为容器管...

2019-05-03 11:21:00 197

原创在win10上搭建pyspark，

　　最近在研究Spark，准确的说是pyspark，为了搭个测试环境，之前一直在云上开Linux机器来搭Hadoop，但是Spark可以Local执行，我就打算在本地搭个环境。遇到了一些问题，记录一下，也给其他朋友一个思路。　　pyspark在本地搭建需要　　　　Java JDK 1.8.0　　　　Anacoda3　　　　spark-2.2.3-bin-hadoop2.7　　...

2019-03-08 18:16:00 203

原创资源调度框架YARN的前世今生

一、产生的背景　　1、MapReduce1.0存在的问题，架构如图所示:　　　　　　　　1)单点故障:JobTracker只有一个,JobTracker挂了整个集群就没办法使用了;2)一个人干的活太多：JobTracker负责接收来自各个JobTracker节点的RPC请求,压力会很大,限制了集群的扩展;随着节点规模增大之后,JobTracker就成为一...

2019-01-10 19:14:00 191

zenglaoshi的博客