大数据小禅
码龄5年
关注
提问 私信
  • 博客:575,194
    社区:5,471
    问答:7
    动态:619
    581,291
    总访问量
  • 108
    原创
  • 5,388
    排名
  • 25,992
    粉丝
  • 30
    铁粉
  • 学习成就

个人简介:致力于大数据与人工智能算法领域,数据科学硕士,华为认证云享专家,阿里云专家博主,大数据开发工程师,期待与你共同学习成长

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-08-27
博客简介:

大数据小禅的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    4,336
    当月
    0
个人成就
  • 大数据领域新星创作者
  • 获得1,943次点赞
  • 内容获得1,141次评论
  • 获得4,525次收藏
  • 代码片获得1,204次分享
创作历程
  • 7篇
    2024年
  • 22篇
    2023年
  • 17篇
    2022年
  • 54篇
    2021年
  • 8篇
    2020年
成就勋章
TA的专栏
  • 【数据结构与算法-零基础到大厂系列】
    付费
    3篇
  • 人工智能AI
  • AI大模型
    5篇
  • Spring Boot
    7篇
  • Flink
    10篇
  • Hadoop
    3篇
  • Spark
    8篇
  • linux实战与常用服务器部署
    19篇
  • 报错解决方案
  • 大数据
    15篇
  • java
    2篇
  • python
    19篇
  • 数据结构与算法
    6篇
  • 程序人生
    2篇
  • javaWeb
  • 大数据面试
    7篇
  • javascript编程思想
    4篇
  • JavaScript从入门到精通
  • 计算机网络
    2篇
TA的推广
兴趣领域 设置
  • 大数据
    hadoophivesparketl
TA的社区
  • 大数据技术社区
    24558 成员 592 内容
    创建者
  • 人生苦短,我用Python!
    85680 成员 2467 内容
    管理者
“一起加入大数据之家”
4ff0f10b9b8c4582ba6cf078b9f4c1dc.png

关注公众号获取大数据面试题大全,面试技巧与简历模板


dddaa4aad05c4da7a8cdd15def6e86a8.png


博主微信点这里


【yopa66】

创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

YOLO数据集-吸烟数据集

发布资源 2024.11.27 ·
jpg

【AI大模型】基于docker部署向量数据库Milvus和可视化工具Attu详解步骤

概念Milvus 是一个开源的向量数据库,专门用于管理、搜索和分析大规模向量数据。适合处理像图像、文本、音频和视频等非结构化数据这些数据通过机器学习或深度学习模型转换为高维向量。用处向量检索结构化和非结构化数据管理大模型知识库RAG概念“Attu” 是一种用于管理和可视化 Milvus 向量数据库的开源用户界面工具。提供了一种直观的方式来与 Milvus 进行交互,使用户可以更方便地管理和操作存储在 Milvus 中的数据。
原创
发布博客 2024.09.01 ·
1499 阅读 ·
6 点赞 ·
7 评论 ·
16 收藏

【AI大模型】基于Langchain和Openai接口实现英文翻译中文应用

本专栏后续将持续更新大模型相关文章,从开发到微调到应用,需要下载好的模型包可私。🚀 欢迎小伙伴们。
原创
发布博客 2024.06.05 ·
507 阅读 ·
6 点赞 ·
4 评论 ·
7 收藏

【AI大模型】Embedding模型解析 文本向量知识库的构建和相似度检索

在大模型中,"embedding"指的是将某种类型的输入数据(如文本、图像、声音等)转换成一个稠密的数值向量的过程。这些向量通常包含较多维度,每一个维度代表输入数据的某种抽象特征或属性。Embedding 的目的是将实际的输入转化为一种格式,使得计算机能够更有效地处理和学习文本Embedding在自然语言处理(NLP)中,文本embedding是一个常见的概念。是将文字或短语转换成数值向量的过程。这些向量捕捉了单词的语义特征,例如意义、上下文关系等。
原创
发布博客 2024.05.23 ·
2044 阅读 ·
15 点赞 ·
5 评论 ·
38 收藏

【AI大模型】基于Langchain和Openai的方式编写Python代码调用GPT完成对话

LangChain 是一个开源框架,专为开发由语言模型驱动的应用而设计。它通过提供一系列组件和工具,使开发者能够创建和部署高级功能的应用程序,如文本摘要、问题解答和聊天机器人等​ (I)​​。增强代码分析:通过对代码进行高效查询和理解,来增强代码分析和开发过程。文本摘要:利用强大的语言模型(如ChatGPT)开发能够生成精确、简洁文本摘要的应用,帮助用户快速掌握复杂文档的主要内容。问题解答应用:构建能够从各种来源(如维基百科、Notion等)提取相关答案的应用,为用户提供快速可靠的信息。
原创
发布博客 2024.05.18 ·
904 阅读 ·
24 点赞 ·
4 评论 ·
22 收藏

【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练

ChatGLM3是智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,* ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能*。ChatGLM3-6B 采用了全新设计的 Prompt 格式 ,除正常的多轮对话外。
原创
发布博客 2024.05.16 ·
1881 阅读 ·
19 点赞 ·
8 评论 ·
29 收藏

【AI大模型】AI大模型热门关键词解析与核心概念入门

本专栏后续将持续更新大模型相关文章,从开发到微调到应用,需要下载好的模型包可私。🚀 欢迎小伙伴们。
原创
发布博客 2024.05.08 ·
1091 阅读 ·
15 点赞 ·
3 评论 ·
29 收藏

【AI大模型】基于ChatGLM-6b从零开始本地部署语言模型,步骤详细无坑版

ChatGLM-6B 是的一种自然语言处理模型,属于大型生成语言模型系列的一部分。"6B"在这里指的是模型大约拥有60亿个参数,这些参数帮助模型理解和生成语言。ChatGLM-6B 特别设计用于对话任务,能够理解和生成自然、流畅的对话文本。这个模型通过大量的文本数据进行训练,学习如何预测和生成语言中的下一个词,从而能够参与到各种对话场景中。
原创
发布博客 2024.05.08 ·
1482 阅读 ·
27 点赞 ·
9 评论 ·
34 收藏

【Flink实战】新老用户方案优化使用状态与布隆过滤器的方式

布隆过滤器(Bloom Filter)是一种经过哈希函数处理的数据结构,用于快速判断一个元素是否可能存在于一个集合中。它可以用来检索大规模数据集中的元素,过滤掉不存在的元素,从而减少昂贵的磁盘或网络访问操作。布隆过滤器的核心思想是使用一个位数组(通常由二进制位组成)和多个哈希函数。当将元素添加到布隆过滤器时,通过哈希函数将元素映射到位数组的多个位置,并将这些位置的二进制位设置为1。
原创
发布博客 2023.09.13 ·
1827 阅读 ·
4 点赞 ·
3 评论 ·
3 收藏

【Flink实战】用户统计:按照省份维度统计新老用户

【Flink实战】用户统计:按照省份维度统计新老用户🚀 欢迎小伙伴们。
原创
发布博客 2023.09.13 ·
1681 阅读 ·
8 点赞 ·
5 评论 ·
5 收藏

【Flink实战】新老用户分析:按照操作系统维度进行新老用户的分析

新老用户分析:按照操作系统维度进行新老用户的分析🚀 欢迎小伙伴们。
原创
发布博客 2023.09.13 ·
1489 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Flink实战】Flink对接Kafka Connetor使用docker部署kafka

Docker 是一个开源的容器化平台,用于将应用程序和其依赖的环境打包成一个独立的容器,以实现应用程序的快速部署、可移植性和可伸缩性。0 传统的应用部署方式通常需要在目标环境中手动设置各种依赖项和配置,可能面临不同操作系统或软件版本之间的兼容性问题。而 Docker 可以通过容器的方式隔离应用程序和其依赖的环境,使得应用程序能够在任意系统上以相同的方式运行,并且不受目标环境的影响。
原创
发布博客 2023.09.13 ·
1946 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X

Redis环境说明 redis6使用docker部署redis6.x 看个人主页docker相关文章编码实战数据源static {list.add("spring boot2.x课程");list.add("微服务SpringCloud课程");list.add("RabbitMQ消息队列");list.add("Kafka课程");list.add("小滴课堂面试专题第一季");list.add("Flink流式技术课程");list.add("工业级微服务项目大课训练营");
原创
发布博客 2023.09.13 ·
1927 阅读 ·
1 点赞 ·
3 评论 ·
15 收藏

【Flink实战】玩转Flink里面核心的Sink Operator实战

在Flink中,Sink Operator(也称为Sink Function或Sink)是指负责将DataStream或DataSet的数据发送到外部存储或外部系统的操作符。Sink Operator是Flink的数据输出端,它的作用是将处理过的数据写入目标位置,如数据库、文件系统、消息队列等。Sink Operator通过将数据传输到外部系统来完成最终的数据存储、展示或其他类型的处理。它可以将数据单个地或批量地发送到目标系统,具体取决于Sink操作符的实现。
原创
发布博客 2023.09.13 ·
1778 阅读 ·
1 点赞 ·
1 评论 ·
6 收藏

【Flink实战】Flink自定义的Source 数据源案例-并行度调整结合WebUI

Flink的并行度是指在Flink应用程序中并行执行任务的级别或程度。它决定了任务在Flink集群中的并发执行程度,即任务被划分成多少个并行的子任务。在Flink中,可以通过设置并行度来控制任务的并行执行。并行度是根据数据或计算的特性来确定的,可以根据任务的特点和所需的处理能力进行调优。将一个任务的并行度设置为N意味着将该任务分成N个并行的子任务,这些子任务可以在Flink集群的不同节点上同时执行。Flink会根据配置的并行度自动对任务进行数据切分和任务调度,以实现高效的并行处理。
原创
发布博客 2023.09.13 ·
1722 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink实战】玩转Flink里面核心的Source Operator实战

Flink的API层级 为流式/批式处理应用程序的开发提供了不同级别的抽象第一层是最底层的抽象为有状态实时流处理,抽象实现是 Process Function,用于底层处理第二层抽象是 Core APIs,许多应用程序不需要使用到上述最底层抽象的 API,而是使用 Core APIs 进行开发。
原创
发布博客 2023.09.13 ·
1801 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Hadoop综合实践】手机卖场大数据综合项目分析

🚀 本文章实现了基于MapReduce的手机浏览日志分析🚀 文章简介:主要包含了数据生成部分,数据处理部分,数据存储部分与数据可视化部分🚀 【本文仅供参考】其中需求实现的方式有多种,提供的代码并非唯一写法,选择适合的方式即可。
原创
发布博客 2023.06.07 ·
5753 阅读 ·
42 点赞 ·
28 评论 ·
49 收藏

【SpringBoot教程】SpringBoot+MybatisPlus数据库连接测试 用户收货信息接口开发

SpringBoot+MybatisPlus组合可以大大加快开发效率,紧接上一篇文章的内容,这篇文章进行数据库的连接与查询测试,并配置日志输出调试🚀。
原创
发布博客 2023.05.28 ·
3646 阅读 ·
22 点赞 ·
21 评论 ·
20 收藏

【SpringBoot教程】开发提效工具Lombok引入 Mybatis-plus-generator代码自动生成工具

一个优秀的Java代码库,简化了Java的编码,为Java代码的精简提供了一种方式你是否发现每个JavaBean都会写getter,setter,equals,hashCode和toString的模板代码,特别的多于没技术lombok消除Java的冗长代码,尤其是对于简单的Java对象,只要加上注解就行。
原创
发布博客 2023.05.26 ·
4324 阅读 ·
12 点赞 ·
14 评论 ·
15 收藏

【SpringBoot教程】 最佳实践之SpringBoot.2.X核心配置文件详解

SpringBoot最佳实践之核心配置文件详解实战
原创
发布博客 2023.04.02 ·
1281 阅读 ·
14 点赞 ·
14 评论 ·
11 收藏
加载更多