自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

越吃越胖的博客

一个IT小白的进阶路

  • 博客(75)
  • 资源 (2)
  • 收藏
  • 关注

原创 第一章 大模型简介

数据处理阶段对原始数据进行清洗和处理。将处理后的数据转化为检索模型可以使用的格式。将处理后的数据存储在对应的数据库中。检索阶段将用户的问题输入到检索系统中,从数据库中检索相关信息。增强阶段对检索到的信息进行处理和增强,以便生成模型可以更好地理解和使用。生成阶段将增强后的信息输入到生成模型中,生成模型根据这些信息生成答案。特征比较RAG微调知识更新直接更新检索知识库,无需重新训练。信息更新成本低,适合动态变化的数据。通常需要重新训练来保持知识和数据的更新。更新成本高,适合静态数据。

2024-04-17 22:35:13 698

原创 PlantUML - 用例图

usecase (节点是否初始化完成) << method >>usecase (是否全部采集完成) << method >>usecase (获取下一批节点) << method >>usecase (获取下一个节点) << method >>采集服务 ---> (是否全部采集完成) : include。采集节点服务 --> (获取下一个节点) : include。usecase (是否需要采集) << method >>usecase (采集是否授权) << method >>

2024-03-17 18:21:57 1088

原创 R_handbook_统计分析

【代码】R_handbook_统计分析。

2023-12-31 15:11:34 781

原创 R_handbook_作图专题

ggforce能对绘制的图增加聚类图层,包括圆形、椭圆形、方形能多种。

2023-12-31 15:07:59 645

原创 R_handbook_基本函数

which能够帮助定位索引号,如返回当前列表中最大值对应的索引。

2023-12-31 15:03:11 721

原创 Linux个人常用总结

cp命令还支持同时复制多个文件,当一次复制多个文件时,目标文件参数必须是一个已经存在的目录,否则将出现错误。这个命令是用来删除文件的,和dos下面的rm(删除一个空目录)是有区别的,大家千万要注意。rm命令常用的参数有三个: -i,-r,-f。这个命令的功能是移动目录或文件,引申的功能是给目录或文件重命名。-r, -R, --recursive 指示rm将参数中列出的全部目录和子目录均递归地删除。-f, --force 忽略不存在的文件,从不给出提示。-v, --verbose 详细显示进行的步骤。

2023-12-31 15:01:18 1786

原创 hologres实战_使用总结

字典编 码可以将字符串的比较转成数字的比较,加速 group by 查询,因此建议用户将 group by 的字段都建成 dictionary_encoding_columns,但是不建议将基数高的列建为 dictionary_encoding_columns,会导致查询性能变差。选择JOIN查询时的连接条件列作为分布列。列存会默认创建更多的索引,包括对字符串类型创建bitmap索引,这些索引可以显著加速查询过滤和统计,因此列比较多的表,会占用更多的存储空间,您可以通过关闭这些默认创建的索引,释放空间。

2023-12-31 14:46:03 1477

原创 Hologres实战_基本原理

首先,要有一套非常强大的存储,能够把实时的数据和离线的数据存储进来,实现数据的通存,同时还要有一种高效的查询服务,能够支持高 QPS 的查询,支持复杂的分析以及联邦查询和分析,这样的话就可以把离线数据和实时数据都导入到系统里去,然后将前端的数据应用,比如 BI 报表和一些在线服务,对接到系统中去。对于典型的 Lambda 架构,是 将实时数据通过实时数据的链路写入到实时数据存储中,离线数据通过离线数据的链路写入 到离线存储中,然后将不同的 Query 放到不同的存储中,再做一个 Merge。

2023-12-31 14:43:49 1320

原创 向量数据库调研

查询复杂度主要是哈希函数的计算复杂度和哈希表的遍历复杂度,一般时间复杂度达到O(N^p),其中N是数据库中向量的数量。时间复杂度主要是与K(最近邻数目)、N(向量数目)和D(向量空间维数)相关,因此时间复杂度能够低至O(log N)。预处理时间复杂度为O(N * D),其中N是数据库中向量的数量,D是向量的维度;自定义实现的 HNSW,调整到规模,并支持完整的 CRUD。搜索复杂度为O(N log N),其中N是数据库中向量的数量。预处理时间复杂度为O(N * log N),其中N是数据库中向量的数量;

2023-12-31 14:42:24 1100

原创 分布式数据库事务故障恢复的原理与实践

关系数据库领域虽然历史悠久,但是仍然充满了活力。这些年来,随着硬件的发展,新的技术和思路也不断的涌现出来,从本文描述的单机数据库到分布式数据库中事务故障恢复的的方案,相信大家也都能感受到这些年来数据库技术的发展是如何一步步适应着硬件的发展趋势。未来又会怎样?更大的内存、更快速的网络、更廉价的硬盘、甚至是非易失性内存的普及,这些变化会给数据库技术带来怎样的可能性?让我们一起拭目以待。(迫不及待的同学,欢迎加入 OceanBase 团队,一起创造数据库技术的未来!

2023-12-31 14:39:46 1204

原创 ES应用_ES实战

依靠知识库使用es总结一些使用技巧。

2023-12-31 14:36:37 1438

原创 ES应用_ES原理

Elasticsearch:基于Apache Lucene并使用Java开发的分布式开源搜索和分析引擎。是 Elastic Stack 的核心,它集中存储您的数据。Elastic Stack:包括 Elasticsearch、Logstash 、 Kibana 和Beats (也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。ES是一个分布式、可扩展的、近实时的数据搜索、分析与存储引擎。

2023-12-31 14:30:46 1623

原创 ES应用_Lucene知识

近期的工作逐渐从移动端转向Java后端,现正在做一个Elastic Search(ES)相关的应用,需要提供关键词全文检索及聚合筛选功能。在翻阅了一堆文档后发现,原来ES就是分布式版的Lucene,内核还是Lucene。这就让我联想起了两三年前在移动端上基于Lucene做的聊天记录全文检索SDK,借此机会,重新回顾了Lucene的基本原理及实践,在此整理一番。当然现在基于最新的Lucene 8.0 API在后端更容易实现相同功能了。

2023-12-31 14:26:15 929

原创 MIMIC云数据库安装及使用

基于阿里云hologres进行mimic数据库组装,该数据库具有强大的性能和计算速度。依次遵循一下步骤可以完成配置。

2023-12-31 12:27:24 1167

原创 2021.11_Coggle组队学习_Linux命令

1 背景看到最喜欢的Coggle数据科学开展起来组队学习计划,而11月份学习的内容是Linux和pytorch。刚好希望通过这活动巩固一下相关知识。本次学习采用打开的形式,学习文档见:https://shimo.im/docs/dumrsexTRJkqSgIC/read。对于Linux的学习内容来说,需要进行以下几个内容的打卡。并且水哥还给精心准备了一些学习资料,供大家自行食用https://bilibili.com/video/BV1yr4y1C7RChttps://bilibili.com

2021-11-23 00:36:17 937

原创 Python_回溯算法总结与LeetCode实战

1 简介1.1 回溯算法原理回溯法按深度优先策略搜索问题的解空间树。首先从根节点出发搜索解空间树,当算法搜索至解空间树的某一节点时,先利用剪枝函数判断该节点是否可行(即能得到问题的解)。如果不可行,则跳过对该节点为根的子树的搜索,逐层向其祖先节点回溯;否则,进入该子树,继续按深度优先策略搜索。回溯法的基本行为是搜索,搜索过程使用剪枝函数来为了避免无效的搜索。剪枝函数包括两类:1. 使用约束函数,剪去不满足约束条件的路径;2.使用限界函数,剪去不能得到最优解的路径。问题的关键在于如何定义问题的解空间,

2021-01-09 20:38:58 602 2

原创 天池新人赛_信贷逾期预测_1赛题理解

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/mast

2021-01-05 10:51:11 447

原创 Python_爬虫_爬取好大夫网站_数据清洗部分

1.前言通过对好大夫网站内容的爬取,我们已经收集到好大夫的相关数据,并将其存入excel表中。之所以先存入excel表中,是因为有很多是非结构化数据,需要进行数据清理后在进行保存,excel中有很多的功能能够帮助进行数据清理,下图是获取的数据示例,一共获得20多万条数据。接下来进行数据清洗工作。2.数据清洗规则爬虫爬取的内容为:姓名_title医院科室医生主页url患者投票...

2021-01-05 09:37:27 8119 25

原创 R_实现SEM

1 背景结构方程模型是很常见的一种研究,目前R已经可以完成该内容的分析。本文将介绍用R进行SEM的分析和研究。2 数据介绍PS: 数据链接上传到资源,可以关注后免费下载(只有积分和关注两个选项呀),一般小伙伴用来学习。数据链接:https://download.csdn.net/download/weixin_44585839/13698757数据字典如下:3 SEM模型3.1 模型我希望使用R实现如下模型。3.2 代码模型构成比较简单:=~ 符号是显变量和隐变量之间做对应~

2020-12-16 00:01:35 1206 2

原创 stacking原理详解

2020-11-25 21:55:14 1231

原创 数据分析_泰坦尼克

泰坦尼克号生存预测作为最经典的启蒙数据分析项目,对于初学者来说是应该是最合适的了,后面将分享更多进阶的数据分析项目。如果已经有基础了,推荐:全文如下:本文结合泰坦尼克号生存预测,从1.数据探索(数据可视化),2.数据预处理,3.模型训练,4.模型调参这四个步骤进行了完整的梳理:1. 数据概述与可视化1.1 数据概述首先我们导入我们的训练数据和测试数据:数据集包含train.csv和test.csv两个文件,可以直接在kaggle官网上下载。train_data = pd.read_csv("i

2020-09-07 14:34:18 543

原创 排序算法总结_python实现

1 冒泡排序时间复杂度:O(n^2)空间复杂度:O(1)稳定性:不稳定排序法lt = [2,4,3,7,9,6,1]def dubble_sort(lt): print(f"输入数组:{lt}") for i in range(len(lt)-1): flag = 0 for j in range(len(lt)-1-i): if lt[j] > lt[j+1]: lt[j],lt[j+

2020-08-06 15:30:29 185

原创 Python_算法_去重重复数字

1. 描述在面试某大厂的时候遇到一个笔试题目,题目内容为:给定一个列表,去除重复的数字(自身也不保留),例如 [1, 2, 2, 3, 4],处理后为 [1, 3, 4]。2. 解题用例输入:nums = [1, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7]用例输出:nums = [1, 2, 5, 7]2.1 暴力求解看到题目的想到一种解法就是对每一个数字进行计数,最后只留出现次数为1的数字。但是这种方法的算法复杂度很好,在面试的时候并没有提到,在整理的时候梳理一下。nums

2020-08-06 11:17:08 1983

原创 NLP入门_Datawhale

1.背景参加了Datawhale NLP入门学习,天池链接:https://tianchi.aliyun.com/competition/entrance/531810/information2.解题思路赛题思路分析:赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题给出的数据是匿名化的,不能直接使用中文分词等操作,这个是赛题的难点。因此本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取和分类模型两个部分。为了减低

2020-07-25 23:02:09 236

原创 查找算法总结_python实现

1. 顺序查找说明:顺序查找适合于存储结构为顺序存储或链接存储的线性表。基本思想:顺序查找也称为线形查找,属于无序查找算法。从数据结构线形表的一端开始,顺序扫描,依次将扫描到的结点关键字与给定值k相比较,若相等则表示查找成功;若扫描结束仍没有找到关键字等于k的结点,表示查找失败。复杂度分析:查找成功时的平均查找长度为:(假设每个数据元素的概率相等) ASL = 1/n(1+2+3+…+n) = (n+1)/2 ;当查找不成功时,需要n+1次比较,时间复杂度为O(n)。def sequenceSear

2020-07-22 16:43:17 312

原创 阿里笔试题20春招笔试题汇总_python版本

正式批第一场 (2020/03/20)1.扑克牌有一叠扑克牌,每张牌介于1和10之间有四种出牌方法:单出1张出2张对子出五张顺子,如12345出三连对子,如112233给10个数,表示1-10每种牌有几张,问最少要多少次能出完正式批第二场 (2020/03/23)1.选队长描述:给一个数字N(1<=N<=1e9),代表集合中有N个人,现在每次选若干个人出来,然后把这若干个人里面其中一个置为队长,这便是一种不同的选法,问你总共有多少种选法?问这样的组合的数量对10^9+7取

2020-07-22 14:27:48 713 1

原创 Python_Leetcode_7_整数反转

1.背景Leetcode专栏目的:希望给学习算法的朋友提供一些想法,也希望有大佬能够通过评论提供宝贵的意见。Leetcode专栏方式:将展示实现代码的多种实现方式,并且对算法复杂度进行比较。由于笔者偏好,代码全部使用python实现。本期题目: https://leetcode-cn.com/problems/reverse-integer/2.解题方式本次介绍循环、字符串反转两种解题方式2.1 循环本方法采用flag进行正负数标记,利用循环进行数值反转。class Solution:

2020-06-27 12:37:31 318

原创 Python_Leetcode_3_无重复字符的最长子串

1.背景Leetcode专栏目的:希望给学习算法的朋友提供一些想法,也希望有大佬能够通过评论提供宝贵的意见。Leetcode专栏方式:将展示实现代码的多种实现方式,并且对算法复杂度进行比较。由于笔者偏好,代码全部使用python实现。本期题目: https://leetcode-cn.com/problems/longest-substring-without-repeating-characters/2.解题方式本题由展示两种解题方式2.1 方法1:暴力求解暴力求解的方式就是生成所有字串

2020-06-26 21:03:50 278

原创 Python_Leetcode_1_ 两数之和

1.背景Leetcode专栏目的:希望给学习算法的朋友提供一些想法,也希望有大佬能够通过评论提供宝贵的意见。Leetcode专栏方式:将展示实现代码的多种实现方式,并且对算法复杂度进行比较。由于笔者偏好,代码全部使用python实现。本期题目: https://leetcode-cn.com/problems/remove-duplicates-from-sorted-array/2.解题方式本题由展示三种解题方式2.1 方法1:多重循环这里是使用双重循环,即两个搜索指针,判断加和是否为t

2020-06-26 14:30:15 216

原创 Python_文本分析_TF-IDF

1. TF-IDF介绍2. 计算逻辑我这里使用了一个简单的数据集帮助大家理解TF-IDF的计算(如下)。数据集为自定义的corpus,一共有四段文本,每一段都比较少来帮助理解计算逻辑。import numpy as npimport pandas as pd from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorize

2020-06-07 23:28:03 963

原创 Python_文本分析_困惑度计算和一致性检验

在做LDA的过程中比较比较难的问题就是主题数的确定,下面介绍困惑度、一致性这两种方法的实现。其中的一些LDA的参数需要结合自己的实际进行设定直接计算出的log_perplexity是负值,是困惑度经过对数去相反数得到的。import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jiebaimport matplotlib.pyplot as pltimport jieba.posseg

2020-06-02 17:02:52 16248 26

原创 Python_文本分析_困惑度计算

这篇博文介绍一个困惑度的神仙方法,困惑度是用来确定最佳主题数一种方式。本代码使用4折交叉验证LDA里面有两个参数需要根据自己的数据等进行设定import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jiebaimport matplotlib.pyplot as pltimport jieba.posseg as jp, jiebaimport gensimfrom snownlp

2020-06-02 16:52:00 6265 2

原创 Python_文本分析_词频_TFIDF统计

import numpy as npimport pandas as pd from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer# Load datacomment1 = pd.read_csv(r"good_1.csv", header = 0, index_col = False, engine='pyt

2020-06-01 23:44:06 2849

原创 Python_文本分析_分词

文本分词的介绍网上已经很全面了,这里主要介绍一种文本分词、去停用词的具体实现,停用词表是对百度、哈工大等常见停用词表融合后去重import csvimport datetimeimport reimport pandas as pdimport numpy as npimport jieba# 停用词路径def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', enc

2020-05-29 11:21:29 1927 3

原创 Python_notebook魔法函数

在学习过程中梳理了一些好用的魔法函数【持续更新】% paste – 防止粘贴时候格式错乱% timeit – 重复运行计算代码运行时间% time – 计算长时间的代码运行时间% mode – 控制异常% debug – debug操作...

2020-05-23 01:39:43 1153

原创 Python_notebook快捷键

1 命令模式快捷键H:显示快捷键帮助F:查找和替换P:打开命令面板Ctrl-Enter:运行当前cellShift-Enter:运行当前cell并跳转到下一cellAlt-Enter:运行当前cell并在下方新建cellY:把当前cell内容转换为代码形式M:把当前cell内容转换为markdown形式16:把当前cell内容设置为标题16格式Shift+上下键:按住Shift进行上下键操作可复选多个cellA:在上方新建cellB:在下方新建cellX/C/Shift-V/V:剪

2020-05-23 01:33:43 1519

原创 Python_数据分析_pandas_06合并与连接

1. 合并与连接合并与链接基于pandas的merge()函数,链接的种类分为一对一链接、多对一链接、多对多链接1.1 设置合并的键基础的方式是on合并的数据集列名不一致时:left_on right_on1.2 设置合并的规则内连接设置how = ‘inner’ 是默认设置(数据库中的inner join)内连接对应的是外连接 outer左连接left 对应右链接 right2.案例:美国州数据2.1 数据说明数据链接为: https://github.com/

2020-05-19 23:18:25 1121

原创 Python_数据分析_pandas_05数据集合并

1. 合并数据集基本函数为:pd.concat(objs, axis=0, join = ‘outer’, join_axes = None, ignore_index = False, verify_intergrity=Flase)List itemobjs为合并对象,列表表示 [A, B]axis是坐标轴方向,默认0按行合并join有outer inner两种方式,及列取全集 交集join_axes是针对不同列明自定义保留列ignore_index:是无视索引verify_int

2020-05-18 01:10:33 1087

原创 Python_数据分析_pandas_04缺失值处理

1. 缺失值处理缺失值处理主要有三个内容、四个函数:发现缺失值(isnull() notnull())、删除缺失值(dropna())、填补缺失值(fillna())首先创建一个矩阵1.1 发现缺失值发现缺失值是生成布尔类型的掩码数据,两个函数相反1.2 删除缺失值基本类型dropna(axis=0, how =‘any’,tresh) ,其中axis是按行还是按列删除、how有两种any-有缺失值即删除和all-全部确实删除、tresh是限定非缺失值的数量eg1:有缺失删除该列e

2020-05-16 23:20:14 2092

原创 Python_数据分析_pandas_03数值运算

1. 运算类型add(+) sub(-) mul(*) div(/) floordiv(//) mod(%) pow(**)构建两个DataFrame1.1 add运算加固定值、加某一行、加某一列两个矩阵相加1.2 sub运算这里展示一个按行减改行最小值1.3 div运算其他用法类似,这里展示一下俺行进行归一化处理,即(value-min)/(max-min)...

2020-05-16 22:43:47 1606

SEM数据_对应博客进行数据分析

SEM数据_对应博客进行数据分析

2020-12-15

stopWordsNew.txt

最新停用词表,结合百度、哈工大等多家停用词并加入一些现在的停用词,使用前可进行集合去重,使用案例可以参照博文https://blog.csdn.net/weixin_44585839/article/details/106421761。有文本分析问题欢迎私信交流

2020-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除