越吃越胖-CSDN博客

原创第一章大模型简介

数据处理阶段对原始数据进行清洗和处理。将处理后的数据转化为检索模型可以使用的格式。将处理后的数据存储在对应的数据库中。检索阶段将用户的问题输入到检索系统中，从数据库中检索相关信息。增强阶段对检索到的信息进行处理和增强，以便生成模型可以更好地理解和使用。生成阶段将增强后的信息输入到生成模型中，生成模型根据这些信息生成答案。特征比较RAG微调知识更新直接更新检索知识库，无需重新训练。信息更新成本低，适合动态变化的数据。通常需要重新训练来保持知识和数据的更新。更新成本高，适合静态数据。

2024-04-17 22:35:13 698

原创 PlantUML - 用例图

usecase (节点是否初始化完成) << method >>usecase (是否全部采集完成) << method >>usecase (获取下一批节点) << method >>usecase (获取下一个节点) << method >>采集服务 ---> (是否全部采集完成) : include。采集节点服务 --> (获取下一个节点) : include。usecase (是否需要采集) << method >>usecase (采集是否授权) << method >>

2024-03-17 18:21:57 1088

原创 R_handbook_统计分析

【代码】R_handbook_统计分析。

2023-12-31 15:11:34 781

原创 R_handbook_作图专题

ggforce能对绘制的图增加聚类图层，包括圆形、椭圆形、方形能多种。

2023-12-31 15:07:59 645

原创 R_handbook_基本函数

which能够帮助定位索引号，如返回当前列表中最大值对应的索引。

2023-12-31 15:03:11 721

原创 Linux个人常用总结

cp命令还支持同时复制多个文件，当一次复制多个文件时，目标文件参数必须是一个已经存在的目录，否则将出现错误。这个命令是用来删除文件的，和dos下面的rm（删除一个空目录）是有区别的，大家千万要注意。rm命令常用的参数有三个： -i,-r,-f。这个命令的功能是移动目录或文件，引申的功能是给目录或文件重命名。-r, -R, --recursive 指示rm将参数中列出的全部目录和子目录均递归地删除。-f, --force 忽略不存在的文件，从不给出提示。-v, --verbose 详细显示进行的步骤。

2023-12-31 15:01:18 1786

原创 hologres实战_使用总结

字典编码可以将字符串的比较转成数字的比较，加速 group by 查询，因此建议用户将 group by 的字段都建成 dictionary_encoding_columns，但是不建议将基数高的列建为 dictionary_encoding_columns，会导致查询性能变差。选择JOIN查询时的连接条件列作为分布列。列存会默认创建更多的索引，包括对字符串类型创建bitmap索引，这些索引可以显著加速查询过滤和统计，因此列比较多的表，会占用更多的存储空间，您可以通过关闭这些默认创建的索引，释放空间。

2023-12-31 14:46:03 1477

原创 Hologres实战_基本原理

首先，要有一套非常强大的存储，能够把实时的数据和离线的数据存储进来，实现数据的通存，同时还要有一种高效的查询服务，能够支持高 QPS 的查询，支持复杂的分析以及联邦查询和分析，这样的话就可以把离线数据和实时数据都导入到系统里去，然后将前端的数据应用，比如 BI 报表和一些在线服务，对接到系统中去。对于典型的 Lambda 架构，是将实时数据通过实时数据的链路写入到实时数据存储中，离线数据通过离线数据的链路写入到离线存储中，然后将不同的 Query 放到不同的存储中，再做一个 Merge。

2023-12-31 14:43:49 1320

原创向量数据库调研

查询复杂度主要是哈希函数的计算复杂度和哈希表的遍历复杂度，一般时间复杂度达到O(N^p)，其中N是数据库中向量的数量。时间复杂度主要是与K（最近邻数目）、N（向量数目）和D（向量空间维数）相关，因此时间复杂度能够低至O(log N)。预处理时间复杂度为O(N * D)，其中N是数据库中向量的数量，D是向量的维度；自定义实现的 HNSW，调整到规模，并支持完整的 CRUD。搜索复杂度为O(N log N)，其中N是数据库中向量的数量。预处理时间复杂度为O(N * log N)，其中N是数据库中向量的数量；

2023-12-31 14:42:24 1100

原创分布式数据库事务故障恢复的原理与实践

关系数据库领域虽然历史悠久，但是仍然充满了活力。这些年来，随着硬件的发展，新的技术和思路也不断的涌现出来，从本文描述的单机数据库到分布式数据库中事务故障恢复的的方案，相信大家也都能感受到这些年来数据库技术的发展是如何一步步适应着硬件的发展趋势。未来又会怎样？更大的内存、更快速的网络、更廉价的硬盘、甚至是非易失性内存的普及，这些变化会给数据库技术带来怎样的可能性？让我们一起拭目以待。（迫不及待的同学，欢迎加入 OceanBase 团队，一起创造数据库技术的未来！

2023-12-31 14:39:46 1204

原创 ES应用_ES实战

依靠知识库使用es总结一些使用技巧。

2023-12-31 14:36:37 1438

原创 ES应用_ES原理

Elasticsearch：基于Apache Lucene并使用Java开发的分布式开源搜索和分析引擎。是 Elastic Stack 的核心，它集中存储您的数据。Elastic Stack：包括 Elasticsearch、Logstash 、 Kibana 和Beats （也称为 ELK Stack）。能够安全可靠地获取任何来源、任何格式的数据，然后实时地对数据进行搜索、分析和可视化。ES是一个分布式、可扩展的、近实时的数据搜索、分析与存储引擎。

2023-12-31 14:30:46 1623

原创 ES应用_Lucene知识

近期的工作逐渐从移动端转向Java后端，现正在做一个Elastic Search（ES）相关的应用，需要提供关键词全文检索及聚合筛选功能。在翻阅了一堆文档后发现，原来ES就是分布式版的Lucene，内核还是Lucene。这就让我联想起了两三年前在移动端上基于Lucene做的聊天记录全文检索SDK，借此机会，重新回顾了Lucene的基本原理及实践，在此整理一番。当然现在基于最新的Lucene 8.0 API在后端更容易实现相同功能了。

2023-12-31 14:26:15 929

原创 MIMIC云数据库安装及使用

基于阿里云hologres进行mimic数据库组装，该数据库具有强大的性能和计算速度。依次遵循一下步骤可以完成配置。

2023-12-31 12:27:24 1167

原创 2021.11_Coggle组队学习_Linux命令

1 背景看到最喜欢的Coggle数据科学开展起来组队学习计划，而11月份学习的内容是Linux和pytorch。刚好希望通过这活动巩固一下相关知识。本次学习采用打开的形式，学习文档见：https://shimo.im/docs/dumrsexTRJkqSgIC/read。对于Linux的学习内容来说，需要进行以下几个内容的打卡。并且水哥还给精心准备了一些学习资料，供大家自行食用https://bilibili.com/video/BV1yr4y1C7RChttps://bilibili.com

2021-11-23 00:36:17 937

原创 Python_回溯算法总结与LeetCode实战

1 简介1.1 回溯算法原理回溯法按深度优先策略搜索问题的解空间树。首先从根节点出发搜索解空间树，当算法搜索至解空间树的某一节点时，先利用剪枝函数判断该节点是否可行（即能得到问题的解）。如果不可行，则跳过对该节点为根的子树的搜索，逐层向其祖先节点回溯；否则，进入该子树，继续按深度优先策略搜索。回溯法的基本行为是搜索，搜索过程使用剪枝函数来为了避免无效的搜索。剪枝函数包括两类：1. 使用约束函数，剪去不满足约束条件的路径；2.使用限界函数，剪去不能得到最优解的路径。问题的关键在于如何定义问题的解空间，

2021-01-09 20:38:58 602 2

原创天池新人赛_信贷逾期预测_1赛题理解

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/mast

2021-01-05 10:51:11 447

原创 Python_爬虫_爬取好大夫网站_数据清洗部分

1.前言通过对好大夫网站内容的爬取，我们已经收集到好大夫的相关数据，并将其存入excel表中。之所以先存入excel表中，是因为有很多是非结构化数据，需要进行数据清理后在进行保存，excel中有很多的功能能够帮助进行数据清理，下图是获取的数据示例，一共获得20多万条数据。接下来进行数据清洗工作。2.数据清洗规则爬虫爬取的内容为：姓名_title医院科室医生主页url患者投票...

2021-01-05 09:37:27 8119 25

原创 R_实现SEM

1 背景结构方程模型是很常见的一种研究，目前R已经可以完成该内容的分析。本文将介绍用R进行SEM的分析和研究。2 数据介绍PS: 数据链接上传到资源，可以关注后免费下载（只有积分和关注两个选项呀），一般小伙伴用来学习。数据链接：https://download.csdn.net/download/weixin_44585839/13698757数据字典如下：3 SEM模型3.1 模型我希望使用R实现如下模型。3.2 代码模型构成比较简单：=～符号是显变量和隐变量之间做对应～

2020-12-16 00:01:35 1206 2

原创 stacking原理详解

留

2020-11-25 21:55:14 1231

原创数据分析_泰坦尼克

泰坦尼克号生存预测作为最经典的启蒙数据分析项目，对于初学者来说是应该是最合适的了，后面将分享更多进阶的数据分析项目。如果已经有基础了，推荐：全文如下：本文结合泰坦尼克号生存预测，从1.数据探索（数据可视化），2.数据预处理，3.模型训练，4.模型调参这四个步骤进行了完整的梳理：1. 数据概述与可视化1.1 数据概述首先我们导入我们的训练数据和测试数据：数据集包含train.csv和test.csv两个文件，可以直接在kaggle官网上下载。train_data = pd.read_csv("i

2020-09-07 14:34:18 543

原创排序算法总结_python实现

1 冒泡排序时间复杂度：O(n^2)空间复杂度：O(1)稳定性：不稳定排序法lt = [2,4,3,7,9,6,1]def dubble_sort(lt): print(f"输入数组:{lt}") for i in range(len(lt)-1): flag = 0 for j in range(len(lt)-1-i): if lt[j] > lt[j+1]: lt[j],lt[j+

2020-08-06 15:30:29 185

原创 Python_算法_去重重复数字

1. 描述在面试某大厂的时候遇到一个笔试题目，题目内容为：给定一个列表，去除重复的数字（自身也不保留），例如 [1, 2, 2, 3, 4]，处理后为 [1, 3, 4]。2. 解题用例输入：nums = [1, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7]用例输出：nums = [1, 2, 5, 7]2.1 暴力求解看到题目的想到一种解法就是对每一个数字进行计数，最后只留出现次数为1的数字。但是这种方法的算法复杂度很好，在面试的时候并没有提到，在整理的时候梳理一下。nums

2020-08-06 11:17:08 1983

原创 NLP入门_Datawhale

1.背景参加了Datawhale NLP入门学习，天池链接：https://tianchi.aliyun.com/competition/entrance/531810/information2.解题思路赛题思路分析：赛题本质是一个文本分类问题，需要根据每句的字符进行分类。但赛题给出的数据是匿名化的，不能直接使用中文分词等操作，这个是赛题的难点。因此本次赛题的难点是需要对匿名字符进行建模，进而完成文本分类的过程。由于文本数据是一种典型的非结构化数据，因此可能涉及到特征提取和分类模型两个部分。为了减低

2020-07-25 23:02:09 236

原创查找算法总结_python实现

1. 顺序查找说明：顺序查找适合于存储结构为顺序存储或链接存储的线性表。基本思想：顺序查找也称为线形查找，属于无序查找算法。从数据结构线形表的一端开始，顺序扫描，依次将扫描到的结点关键字与给定值k相比较，若相等则表示查找成功；若扫描结束仍没有找到关键字等于k的结点，表示查找失败。复杂度分析：查找成功时的平均查找长度为：（假设每个数据元素的概率相等） ASL = 1/n(1+2+3+…+n) = (n+1)/2 ；当查找不成功时，需要n+1次比较，时间复杂度为O(n)。def sequenceSear

2020-07-22 16:43:17 312

SEM数据_对应博客进行数据分析

stopWordsNew.txt

空空如也