自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术普惠,共同进步!

  • 博客(272)
  • 收藏
  • 关注

原创 2022华数杯B题论文思路分析+完整代码(水下机器人组装计划)

2022华数杯B题优秀论文思路分析+完整代码1.用于组装小组件的材料充足。2.生产过程中,不会因为工厂停电、机械故障等突发情况打断生产。3.工厂资金流正常,不会因为缺乏资金而影响生产。4.只有最终产品机器人有外部需求,其他组件不对外销售。5.机器人的需求按计划而定,不受市场价格波动的影响。此处以组装大组件A为例。组装一个大组件A,需要6个小组件A1,8个小组件A2,2个小组件A3。在第d天时,.....................

2022-08-12 08:45:39 25237 48

原创 Python绘制世界疫情地图

世界疫情数据下载请点击》》:疫情数据下载最终效果:下载需要的python包:!pip install echarts-countries-pypkg!pip install echarts-china-provinces-pypkg!pip install echarts-countries-china-cities-pypkgimport seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as

2022-03-28 19:12:26 24948 43

原创 python面试题1

对于索引中的字段,mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。count(列名)只包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不是指空字符串或者0,而是表示null)的计数,即某个字段值为NULL时,不统计。

2024-04-12 14:37:03 818

原创 【Hive_06】企业调优2(数据倾斜优化、HQL优化等)

Map端负责读取join操作所需表的数据,并按照关联字段进行分区,通过Shuffle,将其发送到Reduce端,相同key的数据在Reduce端完成最终的Join操作。根据上述案例可以看出,CBO优化对于执行计划中join顺序是有影响的,其之所以会将province_info的join顺序提前,是因为province info的数据量较小,将其提前,会有更大的概率使得中间结果的数据量变小,从而使整个计算任务的数据量减小,也就是使计算成本变小。不过,有时Hive的输入数据量是非常小的。相对来说,更需要关注。

2023-12-29 00:00:00 1066

原创 【Hive_05】企业调优1(资源配置、explain、join优化)

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。stage可以对应mr,也可以对应文件系统操作。因为不是所有的sql语句的底层都是mr。比如说load语句,底层就不是mr而是文件系统操作。有些sql复杂,需要多个mr才能计算,这个时候对应的也就有多个stage,多个stage之间也是有依赖关系的。依赖关系也就表明了哪个mr先执行,哪个后面执行。

2023-12-26 17:38:58 1433 1

原创 【Hive_04】分区分桶表以及文件格式

压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否。

2023-12-23 16:50:26 1469

原创 【数仓_01】用户行为采集平台

启动记录,记录的是用户在使用应用过程中的报错行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。启动记录,记录的是用户启动应用的行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、启动类型及开屏广告信息等。动作记录,记录的是用户的业务操作行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息 及动作目标对象信息等。

2023-12-22 11:33:28 1462

原创 Python四种配色方案,适合科研的配色

下面这五种配色是不需要指定的,Python自带的主题,无论有多少个种类都适合,这里就简单以条形图为例。

2023-12-19 19:37:14 3533

原创 【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数

Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1)查看系统内置函数2)查看内置函数用法--查看upper函数的用法3)查看内置函数详细信息。

2023-12-17 11:43:52 1283

原创 【Hive_02】查询语法

本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。【因为where过滤的是表里面的一行一行的数据,而group by之后返回的是一组一组的数据。注意:按照部门编号分区,不一定就是固定死的数值,可以是20号和30号部门分到一个分区里面去。

2023-12-14 15:54:29 991

原创 【Hadoop_06】MapReduce的概述与wc案例

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

2023-12-13 13:44:23 1233

原创 【Hive_01】hive关于数据库和表的语法

CREATE DATABASE:表示创建一个数据库的操作。[IF NOT EXISTS]:表示如果数据库不存在则创建,如果数据库已经存在则忽略。database_name:表示要创建的数据库的名称。[COMMENT database_comment]:可选项,表示对数据库的注释或描述。[LOCATION hdfs_path]:可选项,表示数据库在HDFS上的存储路径。

2023-12-12 17:11:23 1230

原创 【Hadoop_05】NN、2NN以及DataNode的工作机制

如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。(2)如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏。

2023-12-12 09:50:51 1027

原创 【Hadoop_04】HDFS的API操作与读写流程

此策略减少了机架间的写入流量,从而总体上提高了写入性能。机架故障的几率远小于节点故障的几率;该策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个数据块只放在两个不同的机架中,而不是三个。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另外三分之一的副本均匀分布在其余机架上。该策略提高了写入性能,而不影响数据可靠性或读取性能。

2023-12-12 08:42:01 1360

原创 【Hadoop_03】HDFS概述与Shell操作

1)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS(2)整体启动/停止YARN2)各个服务组件逐一启动/停止(1)分别启动/停止HDFS组件(2)启动/停止YARN一般都是按照集群来启动,不然如果有100+台服务器的话,就无法启动了1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2023-12-11 10:53:30 1411

原创 【Hive】启动beeline连接hive报错解决

总结就是我将配置文件core-site.xml用户名从wenxin修改成root之后就能正常运行了。在hive-site.xml文件中添加如下配置信息。刚开始一直报错:启动不起来。

2023-12-10 13:49:49 1266

原创 【Hadoop_02】Hadoop运行模式

(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。上面这个命令的目的是运行一个 WordCount MapReduce 作业,从指定的输入路径 /input 读取数据,对其中的单词进行计数,并将结果输出到指定的输出路径 /output。在 Hadoop 中,HDFS 是用于存储数据的分布式文件系统,hadoop fs -mkdir 命令用于创建目录。

2023-12-09 09:48:12 1122

原创 【LLM_05】使用fastgpt搭建本地离线大语言模型(Chatglm3)问答+知识库平台

1、大语言模型:ChatGLM3-6b【可替换成ChatGLM3-6b-32k】2、词向量模型:m3e、bge【有m3e_base、m3e_large、bge_large等等,可以自行选择性能最好的向量模型】3、监控和管理docker的工具:Portainer.io4、系统:ubuntu20(22也一样)5、配置docker、启动oneAPI、启动FaskGPT【具体步骤请看=》

2023-12-07 07:00:00 7366 9

原创 【桑基图】绘制桑基图

(4)根据自己的选择修改图片。'CSDN:温欣2030'

2023-12-07 01:00:00 1499

原创 【Hadoop_01】Hadoop介绍与安装

Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。简介:1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。优势:1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2023-12-06 19:29:28 1114

原创 【vue_3】关于超链接的问题

对于 JavaScript 中的正则表达式匹配,match 方法返回一个数组,该数组的第一个元素是整个匹配的字符串,而从第二个元素开始是与正则表达式中的括号分组匹配的内容。因此,match[1] 获取的是第一个括号分组匹配的内容,而match[0] 获取的是整个匹配的字符串。

2023-11-27 22:58:35 1178

原创 【社会网络分析第6期】Ucient实操

由于输出的是文本格式,因此需要自己使用excel的函数或者数据分列进行处理。这个项矩阵能够体现这两个模块内部的联系是否相较于整个图会更加紧密。关于核心——边缘,如何区分哪些是核心节点,哪些是边缘节点?之后我们就可以使用输出的数据去进行其他的分析运算了。将数据导入Ucinet首先需要对数据进行处理。这里选择连续是因为数值型数据是连续型的。之后还是导入后缀为##h的文件。计算得到网络密度是0.28。

2023-11-26 16:06:57 2665 1

原创 【LLM_04】自然语言处理基础_2

Encoder将可变长度的输入序列编码成一个固定长度的向量;Decoder将固定长度的向量解码成一个可变长度的输出序列;Encoder-Decoder阶段的编码与解码的方式可以是CNN、RNN、LSTM、GRU等;首先,以RNN模型为例,这个模型当中存在一个信息瓶颈的问题。decoder端需要输出一个完整的句子,这要求encoder端得到的最后一个向量表示需要包含它输入句子的所有信息。但是这样的向量无法表达所有句子的多种多样的信息。

2023-11-25 12:19:37 1440

原创 【办公常识_2】设置网络优先级

网络

2023-11-25 09:39:28 493 2

原创 【vue_1】console.log没有反应

上面这段代码的console.log一直打印不出来,发现可能是ElMessage的问题,ElMessage是已经封装好的函数。1、首先,将ElMessage删除,之后看控制台是否能够打印。很好,说明就是ElMessage的问题,在看一下报错的地方。插播一句:如何使用if-else 语句来处理逻辑?总结:多思考,多使用console.log。加上上面这句话就能正确运行了。要做一个权限不够的弹出消息框。哦,原来是忘记导入库了。

2023-11-25 09:39:03 1756

原创 【vue_2】创建一个弹出权限不足的提示框

定义了一个名为 getUserRole 的 JavaScript 函数,该函数接受一个参数 authorityId,根据这个参数的不同值返回相应的用户角色字符串。这段代码的目的是根据传入的 authorityId 值判断用户的角色,然后返回相应的角色名称。v-if的逻辑是,如果拿到的数字不是在[888,1000,1200,2000,3000,3001]当中的话,就提示说该用户没有权限。出现的问题:为什么底下的这些框框看起来高矮不一?v-else的逻辑是,如果不满足v-if的条件,就跳转界面。

2023-11-25 08:30:00 529

原创 【办公常识_1】写好的代码如何上传?使用svn commit

找到文件之后点击SVN Commit。

2023-11-22 22:06:33 487

原创 【Python】上市公司数据进行经典OLS回归实操

主营业务利润占比(Coefficient: -0.027229, P-value: 1.294914e-25):主营业务利润占比的增加与因变量的减少呈负相关关系,且统计上显著。现金资产比率(Coefficient: 0.024404, P-value: 3.653465e-51):现金资产比率的增加与因变量的增加呈正相关关系,且统计上显著。管理费用率(Coefficient: -0.009757, P-value: 7.784131e-05):管理费用率的增加与因变量的减少呈负相关关系,且统计上显著。

2023-11-15 07:00:00 619

原创 【社会网络分析第5期】gephi使用指南

这篇文章就一步一步教大家如何实现上面的效果。

2023-11-13 11:24:28 6465 6

原创 【LLM_03】自然语言处理基础_1

假设我们有若干条训练数据,其中的输入是某个电脑里面的一些属性,比如说它的一些配置之类的,我们希望能够预测出电脑的价格y。这是一个回归问题,希望神经网络根据输入的数据来拟合一个具体的值。语言模型主要完成的两个工作:1、是能够计算一个词的序列,它成为一句话的概率是多少,即联合概率。看已经有的一个序列,成为合法的一句话的概率是多少?如果假设神经网络当中没有激活函数,也就是每一层的操作只是对上一层的输出,运用一个线性变换。针对上面的问题,接下来提到的就是深度学习、大语言模型所做的word embedding。

2023-11-11 15:21:35 762

原创 【HeidiSql_01】python在heidisql当中创建新表的注意事项

假设你已经在python当中弄好了所有的结果,并且保存在df_all这个dataframe当中,然后要将其导入数据库当中并创建一张新的表进行保存。

2023-10-31 14:13:13 554

原创 【安装tensorflow-CPU版本】

使用清华的开源镜像安装较快。

2023-10-27 22:02:04 717

原创 【LLM_02】LangChain知识库+Lora微调chatglm2-6b模型+提示词Prompt的使用原则

Prompt是给AI的指令,引导模型生成符合业务场景的响应输出。

2023-08-04 20:14:56 11608 2

原创 【AutoGluon_04】从HeidiSql数据库读取数据并用autogluon训练好的模型运行

其中上面代码当中的user、password、host、端口号、database(数据库名称) 需要更改为HeidiSQL对应名称。上面三个是用autogluon已经训练好的模型。

2023-07-31 17:03:47 275

原创 【LLM_01】ChatGLM2-6B本地安装与部署(大语言模型)

ChatGLM2-6B是一个开源的、支持中英双语的对话语言模型,基于General Language Model (GLM)架构。自我认知:“介绍一下你的优点”提纲写作:“帮我写一个介绍ChatGLM的博客提纲”文案写作:“写10条热评文案”信息抽取:‘从上述信息中抽取人、时间、事件’垂直领域知识基于私有数据的问答。

2023-07-30 13:17:23 4530 2

原创 【AutoGluon_03】保存模型并调用模型

在训练好autogluon模型之后,可以将模型进行保存。之后当有新的数据需要使用autogluon进行预测的时候,就可以直接加载原来训练好的模型进行训练。其中,参数path="bugStatemodel"就表示在当前路径下新建一个叫bugStatemodel的文件夹,里面存放着训练好的模型。

2023-07-29 09:08:36 1126 1

原创 【AutoGluon_02】更优精度与特征重要性

除了autogluon最基础的模型之外,还可以对其进行调参等操作,这样跑出来可以有更高的准确率。

2023-07-29 09:00:00 846

原创 【AutoGluon_01】自动机器学习框架的安装与示例

Autogluon是一个开源的自动机器学习框架,由AWS(亚马逊网络服务)开发和维护。它旨在简化机器学习的流程,使得即使对机器学习不熟悉的用户也能够轻松地构建高性能的机器学习模型。

2023-07-19 16:38:04 1835

原创 【Python统计与数据分析实战_01】位置与分散程度的度量

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。前者通过绘制统计图、编制统计表、计算统计量等方法表述数据的分布特征,是数据分析的基本步骤,也是统计推断的基础。数据是信息的载体,从数据到信息,需要先分析数据的主要特征,这些特征包括数据的位置度量、分散程度度量、关系度量以及分布形状的度量。1、均值:数据的平均值。

2023-07-18 20:13:00 500

原创 【网站&小程序第1期】基于mysql+java+springboot的大学生就业求职系统(含源码+系统演示视频)

基于mysql+java+springboot的福州大学生就业求职系统(含源码+系统演示视频)

2023-07-15 18:22:21 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除