自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 Ubuntu安装Neo4j

可能报错:Error: JAVA_HOME is not defined correctly. We cannot execute。把 server.default_listen_address=0.0.0.0 注释放开,重启服务即可。注:本文章下载neo4j-community-5.18.1-unix.tar.gz。报错原因是缺少jdk或者没有配置全局变量JAVA_HOME,安装或配置即可。注:本文章安装neo4j 5.18.1。建议安装java 17。出现以下信息即启动成功。出现以下信息即启动成功。

2024-04-30 22:57:48 961

原创 Neo4j基础知识

图数据库是基于数学里图论的思想和算法而实现的高效处理复杂关系网络的新型数据库系统。它善于高效处理大量的、复杂的、互连的、多变的数据。其计算效率远远高于传统的关系型数据库。在图形数据库当中,每个节点代表一个对象,节点之间的连线代表对象之间的关系。节点可带标签。节点和关系都可以带若干属性。每个节点可以存储实体的属性,每条边可以描述实体之间的关联。图形数据库以图形结构存储数据,通过节点和边表示实体及其关系,适用于需要高效处理复杂关系数据的场景,如社交网络、实时推荐、征信系统、人工智能等领域。

2024-03-31 17:31:00 1021

原创 Ubuntu安装MongoDB

输出版本信息即正常,可能报错:bin/mongod: error while loading shared libraries: libcurl.so.4: cannot open shared object file: No such file or directory。注:本文章下载mongodb-linux-x86_64-ubuntu2004-7.0.4.tgz。注:本文章下载mongosh-2.1.1-linux-x64.tgz。注:输入密码要在admin数据库上,在test数据库会报错。

2023-12-27 21:48:14 840

原创 MongoDB基础知识

MongoDB是由C++编写的非关系数据库,是一个基于分布式文件存储的数据库系统,是一个面向集合,模式自由的文档型数据库。MongoDB介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的非关系数据库。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

2023-12-17 18:32:58 567

原创 Ubuntu安装Redis

把requirepass注释去掉,写上自己的密码,重启服务即可。把内容中daemonize no改成daemonize yes。把 bind 127.0.0.1 注释掉,重启服务即可。看到 ./bin/redis-server即启动成功。注:本文章下载redis-7.2.3.tar.gz。进入下载链接选择Redis版本下载。看到activate即启动成功。看到activate即启动成功。密码生效则返回nil(空)。设置为系统服务可以开机自启。

2023-12-12 23:10:51 95

原创 Redis基础知识

Redis基于ANSI C语言编写开发,是一个开源的高性能内存数据存储系统,以键值对的形式存储数据,并支持多种数据结构,如字符串、哈希表、列表、集合和有序集合等。Redis具有低延迟、高吞吐量的特点,适用于对响应时间要求较高的场景。它支持数据持久化,通过快照和日志机制确保数据的安全性。由于其出色的性能和灵活性,Redis成为了众多开发者和企业的首选之一。

2023-12-10 20:17:13 113

原创 Ubuntu安装MySQL

注:本文章下载mysql-server_8.0.35-1ubuntu20.04_amd64.deb-bundle.tar。将bind-address和mysqlx-bind-address注释掉(没有则不管),再重新启动MySQL。如果安装时没有设置密码(尤其是在线安装),则MySQL无法正常使用,故需要将密码重置。再次进入MySQL可以使用设置的密码(‘123456’)进入MySQL。时可能会出现设置密码的界面,正常设置即可。看到activate即启动成功。看到activate即启动成功。

2023-12-05 22:23:51 282

原创 MySQL基础知识

MySQL是一个开源的关系型数据库管理系统,使用标准的SQL数据语言形式。由瑞典MySQL AB公司开发,后被Sun收购,随后Sun又被Oracle收购,因此目前MySQL归Oracle公司所有。MySQL被广泛应用于网站开发和作为中小型企业的数据存储系统。MySQL是一种关联数据库管理系统,将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL被广泛应用于Web应用程序的后台数据存储,包括但不限于电子商务系统、博客平台、论坛、社交网络等。

2023-12-02 22:00:12 66

原创 Ubuntu 安装 SQL Server

则需要安装(无报错跳过)SA 帐户指定强密码。需要最小长度为 8 个字符,包括大写和小写字母、十进制数字和/或非字母数字符号。以下 SQL Server 版本是免费提供许可的:Evaluation、Developer 和 Express 版。建议选择Developer版。和则需要安装(无报错跳过)输入上述命令看到:Active: active (running)则表示服务正在运行,SQL Server服务安装完成。

2023-06-12 17:03:10 2041

原创 SQL Server基础知识

SQL Server 是微软的一种关系型数据库管理系统,也是最流行的企业级数据库管理系统之一。它拥有优秀的可靠性、安全性、抗并发能力及性能,被广泛应用于网络、商务、财务、分析及其他工业领域。是一个全面的数据库平台,使用集成的商业智能(BI)工具提供了企业级的数据管理。

2023-06-08 23:07:33 435

原创 HBase基础知识

HBase是一个开源的、分布式的、非关系型的列族数据库。HBase位于Hadoop生态系统的结构化存储层,数据存储于分布式文件系统HDFS中,并且使用ZooKeeper作为协调服务。HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,ZooKeeper则为HBase提供了稳定的服务和失效恢复机制。HBase的设计目的是处理非常庞大的表,甚至可以使用普通计算机处理超过10亿行的、由数百万列组成的表的数据。

2022-09-29 20:45:17 1850 2

原创 Elasticsearch查询

有多个条件同时成立,需要在body里面进行添加一个键名为bool的键值对,代表条件的意思,值是must或者should,filter,must表示同时成立,should表示或者,就是其中一个成立即可,filter表示范围,数值的范围条件,然后可以选择匹配查询,匹配查询的值是数组形式,表示多个条件同时成立,例如。然后在body输入要查询的条件,选择json格式,输入也要是json格式的数据,最外层的键是选择查询,然后是查询的方式,最后是查询的条件,例如。选择数值范围条件需要指定范围,哪个字段还有条件,例如。

2022-09-26 22:59:33 194

原创 Elasticsearch基本使用

以id为修改条件,这样其实就是把原有的数据进行删除,再进行添加,也就是原数据已经完全删除,只剩下修改后的数据。并且在body里面输入要添加的数据,选择json格式,输入也要是json格式的数据,例如。并且在body里面输入修改后的数据,选择json格式,输入也要是json格式的数据。以id进行查询,查询的结果是id为1001的数据,如果id不存在则返回false。这样就把id为1001的数据删除了,数据不存在则返回not_found。在body中增加一个键为doc,值为要修改的数据的一个键值对,例如。

2022-09-25 21:24:09 111

原创 岭回归算法

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。其实就是降低精度来提高泛化性,这种方法较适合用于病态数据的拟合。在用高阶多项式拟合数据时,有可能会拟合出系数特别大的表达式,即每个特征对输出的影响都很大。除了在训练集上的表现,我们希望模型在测试集上同样具有较好的拟合效果(泛化性),此时就希望训练的模型的系数尽可能地小(趋向于0)。

2022-09-24 19:57:24 8407

原创 搭建Hadoop HA集群

yarn.resourcemanager.store.class:用于Resourcemanager状态存储的类,默认为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore,基于Hadoop文件系统的实现。另外,还可以指定org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore,该类为基于ZooKeeper的实现。

2022-09-23 18:22:42 1282

原创 Hadoop HA 高可用

HA,即高可用(7*24 小时不中断服务)。实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。在Hadoop2.0版本之前,HDFS集群中一旦NameNode节点所在的机器发生意外,如宕机,集群将无法使用,直到管理员重启。或者NameNode节点的机器需要升级,包括软件、硬件升级,此时集群也将无法使用。HDFS HA就是为了解决上述问题。

2022-09-22 16:59:08 856

原创 搭建ZooKeeper分布式集群

其中,id值必须在整个集群中是唯一的,且大小在1到255之间,host是服务器的名称或者IP地址,第一个端口号(port1)是Leader端口,即该服务器作为Leader是供Follower连接的端口,第二个端口号(port2)是选举端口,即选举Leader服务器时供其他Follower连接的端口。tickTime:Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。集群启动成功,搭建完成。

2022-09-21 19:06:56 321

原创 ZooKeeper基础知识

ZooKeeper是一个分布式应用协调服务,主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储,主要用途是维护何监控所存数据的状态变化,以实现对集群的管理。在分布式环境里,往往会有很多服务器都需要同样的配置来保证信息的一致性和集群的可靠性,而一个分布式集群往往会有上百台服务器,一旦配置信息改变,就需要对每台服务器进行修改,这样会消耗大量时间。

2022-09-20 14:03:44 827

原创 Yarn基础知识

Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源(内存、CPU),相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。Yarn其实是一个通用的资源管理系统,所谓资源管理,就是按照一定的策略将资源分配给各个应用程序使用,并且会采取一定的隔离机制防止应用程序之间彼此抢占资源而相互干扰。

2022-09-19 17:41:42 671

原创 MapReduce案例之单词计数

单词计数是MapReduce的入门程序,跟编程语言当中的“Hello world”一样。

2022-09-18 15:57:07 1218

原创 MapReduce程序编写

Hadoop支持多种语言开发MapReduce程序,但是对JAVA语言的支持最好。编写一个MapReduce程序需要新建三个类:Mapper类、Reduce类、驱动类。Mapper类何Reduce类也可以作为内部类放在程序执行主类中。

2022-09-17 18:11:54 2614

原创 MapReduce基础知识

MapReduce是一个分布式运算程序的编程框架,是用户开发“于Hadoop的数据分析应用”的核心框架。使用该框架编写的应用程序能够以一种可靠的、容错的方式并行处理大型集群上的大量数据,也可以对大数据进行加工、挖掘和优化等处理。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。

2022-09-16 18:19:41 644

原创 HDFS JAVA API

org.apache.hadoop.fs.FileSystem:一个通用文件系统的抽象基类,可以被分布式文件系统继承。所有可能使用Hadoop文件系统的代码都要使用到这个类。org.apache.hadoop.fs.FileStatus:一个接口,用于向客户端展示系统中文件和目录的元数据,具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。

2022-09-12 21:12:07 1235

原创 HDFS命令行

在Linux终端窗口,可以利用Shell命令对Hadoop进行操作。利用这些命令可以完成HDFS中文件的上传、下载、复制、查看文件信息、格式化名称节点等操作。若没有配置Hadoop的系统PATH变量,则需要进入到Hadoop的安装目录下/bin目录中执行。

2022-09-11 19:38:01 2380

原创 HDFS基础知识

HDFS是Hadoop项目的核心子项目,在大数据开发中通过分布式计算对海量数据进行存储与管理。它基于流数据模型访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2022-09-09 19:01:40 1456

原创 搭建Hadoop分布式集群

yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle才可运行Mapreduce程序。yarn.resourcemanager.address:指定ResourceManager所在的节点与访问端口,如果不添加,ResourceManager则默认执行在YARN启动命令的节点上启动。dfs.datanode.data.dir:DataNode节点数据在本地文件系统的存放位置。指定 Mapreduce。

2022-09-06 14:48:36 246

原创 Hadoop基础知识

如果不同框架组成的集群相互独立,随着数据增长,跨集群间的数据移动需要耗费更长的时间,而共享集群方式通过共享集群间的数据和资源,大大节省了数据移动时间并降低了成本。如果不同框架组成的集群相互独立,必然会导致资源的利用不充分,甚至出现资源紧张的情况,而共享集群的方式可以使多个框架共享集群资源,提高了资源利用率。高扩展性:Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,用于实时计算的场景较多。

2022-09-05 20:46:50 1183

原创 逻辑回归算法

逻辑回归算法是所有机器学习算法中最简单的算法,主要解决二分类问题,用来表示某件事情发生的可能性,逻辑回归算法将任意输入映射到0-1之间,在线性回归中可以得到一个预测值,然后将该值映射到Sigmoid函数中,这样就完成了由值到概率之间的转换,也就是分类问题。简单来说,逻辑回归算法就是拟合一个函数,来预测某一件事情所发生的概率,一件事情所发生的概率自然是在0-1范围内。...

2022-08-03 22:53:10 341

原创 线性回归算法

线性回归算法概述线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归模型是相对简单的回归模型,对一个或多个自变量之间的线性关系进行建模,可用最小二乘法求模型函数。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。......

2022-07-25 21:59:32 6729 1

原创 DBSCAN聚类算法

DBSCAN聚类算法概述DBSCAN聚类算法是一个比较有代表性的基于密度的聚类算法。所谓密度,就是说样本的紧密程度对应其类别,属于同一个类别的样本是紧密相连的。DBSCAN聚类算法可以在噪声的空间数据库中发现任意形状的聚类。DBSCAN聚类算法相关概念在数据集中找一个点,以这个点为圆心,画一个指定半径的圆,在这个圆内的其他点就是与这个点密切的点,如果些点的数量达到一定的数量,也就是达到阈值,就可以认为这个点是核心点。如果一个点在核心点的指定半径圆的这个范围内,那么就说这个点和核心点成为直接密

2022-04-13 12:34:42 1789

原创 Elasticsearch基础知识

Elasticsearch介绍Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。Elas

2022-04-12 11:11:18 1473

原创 Kmeans聚类算法

Kmeans聚类算法概述k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。Kmeans聚类算法是一

2022-04-11 21:30:02 1492 2

原创 BP神经网络

BP神经网络概述BP神经网络即误差反馈神经网络算法。无需事先确定输入输出之间映射关系的数学方程,仅通过自身的训练,学习某种规则,在给定输入值时得到最接近期望输出值的结果。它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。包括信号的正向传播和误差的反向传播两个过程,即计算机误差输出时按从输入到输出的方向进行,从而调整权重和阈值时按从输出到输入的方向进行。

2022-04-09 21:12:32 3280

原创 SVM算法

SVM算法概述SVM又称为支持向量机,是一种二分类的模型。是一种监督学习模型。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短。举个例子,在一个二维的平面上有放满了红豆和绿豆,左边放着红豆,右边放着绿豆,而中间就是分界线,我们想要把找到一条线,这条线能很好的把红豆和绿豆分开来,中间的分界线很明显就是。但是,能做到把红豆和绿豆分开来的线可能不止一条,如果这条中间的分界线旋转一定的角度,在平面范围内,也许也可

2022-04-07 10:46:48 2401

原创 朴素贝叶斯算法

朴素贝叶斯算法概述朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 ,是应用最为广泛的分类算法之一。发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。朴素贝叶斯公式

2022-04-06 09:43:20 2516

原创 决策树算法

决策树算法概述决策树是一种十分常用的分类方法。是一种监督学习。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树的来源朴素,其实就是大量的if-else语句,最终根据这些if-else语句得到结果。决策树是一种递归的逻辑结构,其每一个节点都可以作为一棵树,所以我们只需要做到每个节点最优,就可以保证整个决策树最优。对于构建一颗决策树,就是选择最优分裂特征属性,即从当前数据的特征中选择一个最优的特征属性作为当前节点的划分标准,进行划分,从而

2022-04-05 12:09:56 2446

原创 KNN算法

KNN算法概述KNN算法分类是数据挖掘算法中最简单的方法之一。是有监督学习的算法。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。举个简单的例子,近朱者赤近墨者黑,就是你的朋友是怎样的人,你就是怎样的人。再举个例子,一条街道上,一边是高楼大厦,别墅洋房,住着有钱人,一边是茅草盖的房子,住着穷人,这时候有一个新来的人,他住到的高楼大厦那一边,那么我们就会认为他是一个有钱人,因为住的是有钱人那一边。

2022-04-04 22:35:47 1687

原创 You are my brother(蓝桥杯ACM训练)

题目描述Little A gets to know a new friend, Little B, recently. One day, they realize that they are family 500 years ago. Now, Little A wants to know whether Little B is his elder, younger or brother.翻译:小 A 最近认识了一个新朋友小 B。有一天,他们意识到他们是 500 年前的家人。现在,小A想.

2022-01-20 19:06:30 356

原创 接水问题(蓝桥杯ACM训练)

题目描述学校里有一个水房,水房里一共装有m个龙头可供同学们打开水,每个龙头每秒钟的供水量相等,均为1。现在有n名同学准备接水,他们的初始接水顺序已经确定。将这些同学按接水顺序从1到n编号,i号同学的接水量为wi。接水开始时,1到m号同学各占一个水龙头,并同时打开水龙头接水。当其中某名同学j完成其接水量要求wj后,下一名排队等候接水的同学k马上接替j同学的位置开始接水。这个换人的过程是瞬间完成的,且没有任何水的浪费。即j同学第x秒结束时完成接水,则k同学第x+1秒立刻开始接水。若当前接水人数n’不足m,则

2021-07-22 17:27:17 437

原创 弟弟的作业(OI赛题)

题目描述你的弟弟刚做完了“100以内数的加减法”这部分的作业,请你帮他检查一下。每道题目(包括弟弟的答案)的格式为a+b=c或者a-b=c,其中a和b是作业中给出的,均为不超过100的非负整数;c是弟弟算出的答案,可能是不超过200的非负整数,也可能是单个字符"?",表示他不会算。输入输入文件包含不超过100行,以文件结束符结尾。每行包含一道题目,格式保证符合上述规定,且不包含任何空白字符。输入的所有整数均不含前导0。输出输出仅一行,包含一个非负整数,即弟弟答对的题目数量。

2021-07-22 15:39:02 610

pytorch手写数字识别样例

pytorch手写数字识别样例代码,适用于初学者,代码可以直接运行,包含获取数据集片段

2023-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除