- 博客(129)
- 资源 (3)
- 收藏
- 关注
原创 深入理解 Parquet 文件格式
例如,部门列中"市场部"和"技术部"重复多次,字典编码只需存储这些值一次,然后在实际数据中使用索引引用,大大提高了压缩效率。例如,如果年龄列中的值都在0到63之间,可以使用6位而不是标准的32位来表示每个值,从而显著降低数据存储的大小。在数据块(Row Group)中,数据按照列存储,每一列被称为列块(Column Chunk),进一步细分为多个页面(Page),便于数据的读取和缓存。因此,Parquet 格式采用列式存储方式,旨在解决行式存储的局限性,提升大数据处理的效率。
2024-10-12 15:28:30 1251
原创 知识蒸馏和知识图谱相结合的大模型微调方案
知识蒸馏(Knowledge Distillation)是一种将大模型(教师模型,Teacher Model)的知识传递给小模型(学生模型,Student Model)的技术。目标是通过训练学生模型,使其能够在较低的计算成本下达到接近教师模型的性能。
2024-07-16 15:08:14 363
原创 奇异值分解(SVD)关键概念以及物理意义
Q: 为什么需要低秩近似A:为了减少计算消耗,提高效率。Q:什么是“低秩近似”?A:低秩近似(low-rank approximation)是一种通过保留矩阵中最重要的特征分量,来减少矩阵维度和复杂度的方法。
2024-07-08 15:22:37 1379
原创 RAG简要教程
通过以上步骤,我们实现了一个简单的 RAG 模型,能够回答用户查询并提供详细的、基于外部知识库的信息。这种方法能够显著提升语言模型的性能和实用性。
2024-07-03 10:29:16 514
原创 Ubuntu(22.04)不能上网解决办法
想必大家可能在别的贴子看到用以下指令的方法,但是在。版本的ubuntu是行不通的,问题在于。当红框内容出现时则表明修复好了。版本中网络管理器的名字压根不是。
2024-05-25 13:25:37 2133
原创 记一次史诗级灾难的恢复方法:笨蛋edge把我收藏夹清空了
这一点可以去网上搜搜,教程非常多。根据下图所示路径找到文件。先在文件管理器中打开。
2023-12-27 22:17:02 5523 9
原创 Paper notes: A Blockchain-based Semantic Exchange Framework for Web 3.0 toward Participatory Economy
论文笔记:A Blockchain-based Semantic Exchange Framework for Web 3.0 toward Participatory Economy
2023-08-22 10:03:26 870
原创 为什么说线索二叉树是一种物理结构
1数据结构三要素中的两个要素分别为数据的逻辑结构数据的存储结构,也称物理结构它们的精确定义是:数据的逻辑结构数据元素之间的逻辑关系,与数据的存储无关。数据的存储结构数据结构在计算机中的表示,是使用计算机语言实现的逻辑结构,它依赖于计算机语言。2通过逻辑结构和存储结构的精确定义我们可以发现,存储结构是 依赖于计算机语言 的,当我们用计算机高级语言如c语言去定义二叉线索树时,每个结点的 线索,即前驱和后继是 通过指针去定义的,而 指针是c语言的一种功能,这就满足了定义中的 “使用计算
2021-04-07 19:23:03 12772 13
转载 引用文献时如何写作者的名字
撰写科技论文时,总免不了要引用前人的发现,尤其是在前言和讨论部分。那么在文中提到他人的研究时,如何写出作者的名字呢?其实规则很简单,通常只需要写出第一作者的姓(last name)就可以了。比如下面的例句:Hiemer et al. (2015) observed that the transcriptional regulator YAP abnormally accumulated in the nucleus in pre-malignant oral tissues 1.大多数文章都有多名作
2021-01-31 20:37:15 7819
原创 编译原理练习题
一. 选择题(2分*10=20分)注意:请将选择题答案填写到以下选择题答题卡中题号 1 2 3 4 5 6 7 8 9 10答案 D B D C D B C A C C编译程序绝大多数时间花在____D_____上 。A. 词法分析 B. 语法分析C. 语义分析 D. 表格管理汇编程序是将_____ B__ 翻译成__;编译程序是将________翻译成________。①高级语言 ②汇编语言 ③机器语言 ④高级语言或汇编语言⑤汇编语言或机器语言A.①③①⑤
2021-01-20 10:42:07 2352
原创 决策树ID3 C4.5 CART代码
ID3# encoding: gbkimport pandas as pdimport numpy as npclass DecisionTree: def __init__(self): self.model = None # 计算熵 def calEntropy(self, y): valRate = y.value_counts().apply(lambda x: x / y.size) # 频次汇总 得到各个特征对应的概率
2021-01-18 20:27:03 300 1
原创 《算法设计与分析 第2版 屈婉玲等》第五章习题答案
前言这是老师发的答案,来源我猜测是原书,因为网上找不到第五章的习题解答,所以本着方便大家学习的心态把答案放上来。由于是我自己放上来的,所以投了原创。如果这份答案侵犯了任何人的合法权利,请及时私信我,我将第一时间删除本博客。谢谢!...
2021-01-08 16:39:02 4683 1
原创 童年影视大全!
1 国产1.1 动画片《葫芦娃》《葫芦小金刚》《黑猫警长》《中华小子》《神兵小将》系列《天上掉下个猪八戒》《哪吒传奇》《围棋少年》《小鲤鱼历险记》《西游记》《三国演义》《美猴王》《福娃》系列《郑和下西洋》《三毛流浪记》《美猴王》《飞越五千年》《虹猫蓝兔七侠传》《虹猫蓝兔仗剑走天涯》《大头儿子小头爸爸》《闪闪的红星》《淘气三千问》《孔小如》《蓝猫龙骑团》《蓝猫龙集团之生命之花》《蓝猫龙骑团之炫迪传奇》《劲爆陀螺》《花园宝宝》《喜洋洋与灰太狼》系列《洛洛历险记》《福五鼠》系列《大耳朵图图》系列《果宝特攻》系
2021-01-07 15:36:43 932
原创 解决 Visual Studio 2019 无法打开wpf设计器问题
打开vs2019,找到选项栏的“工具”,然后选择“获取工具和功能”,再把下面红框中的打勾,再点击界面右下角的修改,之后稍等片刻,等到vs2019的界面重新打开后,点击选项栏里的“视图”,然后点击“设计器”。参考:VS2019: XAML designer not available; settings/buttons missing...
2021-01-06 21:34:01 7128 1
原创 如何理解遗传算法中的编码与解码?以二进制编码为例
前言遗传算法的编码方法各种各样,但二进制串编码方式是最经典的一种,那么它的编码和解码该如何进行呢?或许本博客能给你一个具有参考价值的答案。编码经典遗传算法中使用“染色体”来代指个体,它由二进制串组成,如下图所示:它的每一维称为一个基因,取值为0或1。下面用一个具体的优化问题来解释个体(染色体)的编码和解码:maxmize f(x) = −x2+10cos(2πx)+30, −5≤x≤5maxmize \ f(x)\ =\ -x^2+10\cos{(
2020-12-29 22:03:10 13463 5
原创 matplotlib 多子图的画法 - 设置坐标范围 - 设置坐标的显示间隔 - 设置figure的大标题 - 设置x轴和y轴的名称 - df.groupby
- 多子图的画法- 设置坐标范围- 设置坐标的显示间隔- 设置figure的大标题- 设置x轴和y轴的名称
2020-12-27 21:38:51 4874 1
原创 数据可视化组队学习:《Task06 - 场景案例显神通》笔记
文章目录前言1 展示趋势变化(Evolution)1.1 折线图1.1.1 简单线图1.1.2 突出某一重点的多线图1.2 面积图1.3 堆积面积图2 展示分布关系2.1 小提琴图2.2 箱型图2.3 直方图前言本文为《Task06 - 场景案例显神通》笔记。介绍用于不同场景的可视化图表类型:1)展示趋势变化(Evolution)2)展示分布关系(Distribution)3)展示相关关系(Correlation)4)展示排序信息(Ranking)5)展示组成关系(Part of a wh
2020-12-27 21:16:57 705
翻译 如何从非独立同分布数据中学习?
从非 iid 数据中学习IID 是什么意思?非正式地,同分布意味着没有总体趋势-分布不会波动,样本中的所有项目都来自同一个概率分布。独立意味着样本项都是独立的事件。换句话说,它们之间没有任何联系。IID 统计数据的一个更具技术性的定义是:Each x(i)∼Dx^{(i)} \sim \mathcal{D}x(i)∼D (Identically - Distributed)∀i≠j p(x(i),x(j))=p(x(i))p(x(j))\forall i \ne j \, \, \,
2020-12-25 17:22:55 3571
原创 数据可视化组队学习:《Task05 - 样式色彩秀芳华》笔记
文章目录前言1 matplotlib全局样式设定1.1 matplotlib自带的样式1.2 打造属于自己的全局绘图样式1.2.1 使用.mplstyle文件来设置1.2.2 设置rcparams1.2.3 修改matolotlibrc文件来修改样式2 matplotlib的色彩设置2.1 设置颜色的方式2.1.1 RGB/RGBA2.1.2 HEX RGB/RGBA2.1.3 灰度色阶2.1.4 八种基本颜色前言本文为《Task05 - 样式色彩秀芳华》笔记。1 matplotlib全局样式设定
2020-12-24 11:16:43 332 6
原创 matplotlib画图去除tick(刻度)和spine(图的边框)
import matplotlib.pyplot as pltimport numpy as npcolors = [ 'b', 'g', 'r', 'c', 'm', 'y', 'k', 'w' ]fig, axs = plt.subplots(2,4)for ax,c in zip(axs.flat,colors): ax.plot([1,2,3],[4,5,6],color=c) # for ax in axs.flat:# ax.set_axis_off()
2020-12-24 09:59:34 2306
原创 数据可视化组队学习:《Task04 - 文字图例尽眉目》笔记
文章目录前言1 Figure和Axes的文本1.1 text1.2 title和set_title1.3 figtext和text1.4 suptitle1.5 xlabel和ylabel1.6 annotate前言本博客是Task04的笔记。1 Figure和Axes的文本1.1 text说明:参数:此方法接受以下描述的参数:s:此参数是要添加的文本。xy:此参数是放置文本的点(x,y)。fontdict:此参数是一个可选参数,并且是一个覆盖默认文本属性的字典。如果fontdict
2020-12-22 22:36:01 597 1
原创 数据可视化组队学习:《Task03 - 布局格式定方圆》笔记
前言《第三回:布局格式定方圆》笔记。1 子图1.1 使用 plt.subplots 绘制均匀状态下的子图"""figsize 参数可以指定整个画布的大小sharex 和 sharey 分别表示是否共享横轴和纵轴刻度tight_layout 函数可以调整子图的相对大小使字符不会重叠"""fig, axs = plt.subplots(2, 5, figsize=(10, 4), sharex=True, sharey=True)fig.suptitle('样例1', size=20
2020-12-20 22:28:47 375 1
原创 数据可视化组队学习:《Task02 - 艺术画笔见乾坤》笔记
文章目录前言1 概述1.1 matplotlib的使用逻辑1.2 matplotlib的三层api1.3 Artist类的结构1.4 matplotlib标准用法2 自定义你的Artist对象2.1 Artist属性2.2 属性调用的方式3 基本元素 - primitives3.1 Line2D3.1.1 如何设置Line2D的属性3.1.2 绘制Line2D3.1.3 errorbar绘制误差折线图3.2 patches3.2.1 绘制Rectangle-矩形3.2.3 绘制Polygon-多边形3.2.
2020-12-18 13:58:04 998
原创 数据可视化组队学习:《Task01 - Matplotlib初相识》笔记
第一回:Matplotlib初相识本文为组队学习任务01学习笔记。1 认识matplotlibMatplotlib 能绘制各种表,能用于python脚本,是知名绘图接口的底层。Matplotlib图片的层次结构:figure→axes→axis→ticksFigure:顶层级,用来容纳所有绘图元素Axes:matplotlib宇宙的核心,容纳了大量元素用来构造一幅幅子图,一个figure可以由一个或多个子图组成Axis:axes的下属层级,用于处理所有和坐标轴,网格有关的元素Ti
2020-12-13 19:50:01 191 1
原创 非常好用的论文笔记模板!
前言论文相关信息标题:出处和年份:论文作者及其工作单位:关键词概述论文研究的问题及其意义现有方法及其优缺点方法优点缺点文献论文的思路和方法及其优缺点思路和方法优点缺点论文使用的数据集和实验工具数据集实验工具源码论文的实验方法...
2020-12-08 21:14:51 529
原创 python中.append()和.extend()的区别
话不多说,直接上例子:>>>a = [1,2]>>>b = [3,3]>>>a.append(b)>>>aOut[62]: [1, 2, [3, 3]]>>>a.extend(b)>>>aOut[64]: [1, 2, [3, 3], 3, 3]
2020-12-03 17:07:28 175
原创 线性回归python代码实现
import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签input_x = [0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50]input_y = [10, 26, 23, 43, 20, 22,
2020-11-18 22:55:53 388
原创 PDGAN: A Novel Poisoning Defense Method in Federated Learning Using Generative Adversarial Network笔记
前言论文相关信息标题PDGAN: A Novel Poisoning Defense Method in Federated Learning Using Generative Adversarial Network出处和年份出处年份Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bi
2020-11-05 10:36:25 1115 1
原创 Tensorflow2.0版本 笔记
文章目录Tensorflow笔记1 常用函数1.1 tf.where()1.2 np.mgrid()1.3 tf.nn.softmax_cross_entropy_with_logits()2 常用网络结构2.1 基础框架——Sequential 和 Class 网络框架2.1.1 tf.keras.models.Sequential()2.1.2 class MyModel (Model)2.2 功能扩展后的网络2.2.1 构造数据集2.2.2 图片数据增强2.2.3 断点续训、输出网络参数、输出loss
2020-10-26 10:32:41 1110 2
转载 vim基本操作
vim基本操作Vim 是 Linux 系统上的最著名的文本/代码编辑器,也是早年的 Vi 编辑器的加强版,而 gVim 则是其 Windows 版。它的最大特色是完全使用键盘命令进行编辑,脱离了鼠标操作虽然使得入门变得困难,但上手之后键盘流的各种巧妙组合操作却能带来极为大幅的效率提升。因此 Vim 和现代的编辑器(如 Sublime Text)有着非常巨大的差异,而且入门学习曲线陡峭,需要记住很多按键组合和命令,如今被看作是高手、Geek们专用的编辑器。尽管 Vim 已经是古董级的软件,但还是有无数新人迎
2020-10-17 14:27:40 139
原创 Tensorflow 2.0 的新特性介绍——最详细版本
文章目录有效的TensorFlow 2重大变化的简要摘要API清理急于执行没有更多的全局变量功能而不是会话惯用TensorFlow 2.0的建议将代码重构为较小的函数使用Keras图层和模型来管理变量结合使用tf.data.Datasets和@ tf.function利用带有Python控制流的AutoGraphtf.metrics汇总数据,而tf.summary记录它们调试时使用tf.config.experimental_run_functions_eagerly()有效的TensorFlow 2T
2020-10-15 11:21:03 1850
原创 NFA到DFA的转化(保证能讲明白)
如何将下图的NFA转化为DFA呢? 图1跳回去????解答如下:求出 ε_closure(s)ε\_closure(s)ε_closure(s)ε_closure(s)ε\_closure(s)ε_closure(s)表示由状态 sss 经由条件 εεε 可以到达的所有状态的集合ε_closure(0)={0,1,2,4,7}ε\_closure(0)=\{0,1,2,4,7\}ε_closure(0)={0,1,2,4,7}ε_closure(1)={1,2,4}ε\_closure(
2020-10-08 16:28:48 40820 35
原创 神经网络和深度学习各类概念名词解析
池化层池化层有Max pooling 和 average pooling,实际用的较多的是Max pooling。下面以Max pooling 作为例子。卷积层可以发现,卷积层的每个像素点是有权重的,但池化层并没有。
2020-09-29 10:18:11 210
原创 python列表中 [ :: ]的用法
话不多说,直接用最直观的例子解释:a = [0,1,2,3,4,5] # 初始列表In: a[0::1]Out: [0, 1, 2, 3, 4, 5]In: a[0::2]Out: [0, 2, 4]In: a[1::2]Out: [1, 3, 5]可以看到,a[0::1] 表示从下标 为 0 的元素开始取数,步长为 1,所以往后逐个取数,取数分别为 0 1 2 3 4 5 ....
2020-09-26 15:28:22 3655
原创 P7 计算机的性能指标
静态测试动态测试例如鲁大师等软件,其实是通过基准程序来跑分的。思考主频高的CPU一定比主频低的CPU快吗?不一定。主频高的CPU的平均CPI可能会低。若A、B两个CPU的平均CPI相同,那么A一定更快吗?不一定。还得看指令系统,假如A只能进行加法操作,没法进行乘法操作。知识回顾与重要考点...
2020-09-24 14:45:40 397
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人