学术前沿
文章平均质量分 78
古猫先生
长期混迹存储领域,先后供职于知名半导体外企和互联网存储研发,欢迎留言or私信交流~
展开
-
非对称RAID破解SSD异构存储难题
例如,RAID-50遵循这种方法。结果是,用户感知的LBA0将被映射到性能最高的磁盘上,而后续的LBA将被分配到性能逐渐降低的磁盘上。然而,SSD相较于传统的硬盘驱动器(Hard Disk Drives, HDDs)呈现出独特的挑战,包括性能和容量的显著差异,以及随时间推移的性能衰退。针对这些问题,Asymmetric-RAID (Asym-RAID) 提供了一种新的解决方案,它通过不对称地分配数据来充分利用每个SSD的容量,并通过差异化地导出每个数据条带的地址空间来改善性能,允许进行性能优化的数据放置。原创 2024-09-01 10:36:25 · 1558 阅读 · 0 评论 -
全息光存储技术能否取代硬盘?
在写入阶段,信号光束经过空间光调制器编码后,与参考光束在材料内部相遇形成干涉图案,进而改变材料的折射率以实现数据存储。而在读取阶段,则仅使用参考光束照射材料,通过衍射效应重建存储的全息图,并由相机捕捉重构后的数据页。此外,通过对读取过程的能量进行优化,能够有效延长存储数据的有效寿命。参考文献:Chu, J., Cheriere, N., Brennan, G. et al. Can holographic optical storage displace Hard Disk Drives?原创 2024-08-16 23:19:49 · 895 阅读 · 0 评论 -
内存RAS可靠性未来的研究重点
随着硬件架构的不断演进和工作负载的多样化,先进的ECC、创新的CRC应用以及片上ECC技术的应用,为降低内存错误带来的风险提供了更多可能性。未来,随着技术的持续进步,我们期待看到更加高效、智能的内存错误管理方案,进一步减少数据中心的停机时间和维护成本,支撑大数据和云计算时代的数据密集型应用。图26描绘了SDC在片上ECC和DRAM控制器中产生的过程,当D0和D1被错误地识别为单个错误数据,且在片上ECC中D3被错误修正时,DRAM控制器也会误解并错误修改了第i个数据Di,从而导致SDC。原创 2024-07-15 22:53:34 · 485 阅读 · 0 评论 -
内存RAS技术介绍:内存故障预测
这是因为在内存操作中,信号通过晶体管栅极传输时影响较小,但数据沿位线(bit lines)移动,连接到源或漏极时,由于位线的电阻或电容效应,电荷流动可能会受到干扰,导致较高的错误率。图25展示的OBET硬件模块图例中,该技术通过在特定数据单元间增设错误标志来追踪字节错误,这一设计虽然带来了1.6%的面积开销和3%的功率消耗,但提供了有效的错误监测机制。在图24(b)中,CE的情况显示,由于频繁的替换或迁移导致的成本高于因正确预测UE带来的好处,成本节省呈现负值,意味着预测策略在经济上是不利的。原创 2024-07-15 22:52:10 · 1615 阅读 · 0 评论 -
内存ECC基础纠错算法有哪些?
Chipkill技术显著提升了系统对于内存错误的抵抗能力,特别是在服务器和高性能计算环境中,能够提高系统的稳定性和可靠性,减少因内存错误导致的数据丢失或系统崩溃的风险。(图6a):首先,在发送端,数据被除以一个预定的多项式比特序列(例如,多项式p(x) = x^3 + x + 1,对应的二进制形式为1011)。SECDED编码同时应用于这四个不同的数据字,使得理论上每次最多可以纠正四个独立的单比特错误,或是一些组合的错误模式,包括一个DIMM内的多比特错误或一个整个DIMM的失效。原创 2024-07-15 22:50:44 · 1141 阅读 · 0 评论 -
内存ECC高级纠错算法有哪些?
图13展示了一种不依赖查找表的CRC错误纠正方法,该方法使用了一个生成多项式g(x) = x^4 + x + 1,在生成了s(x) = x^2 + 1时,通过与m比特数据的组合结果进行XOR运算,从t0到t5逐步执行,最后通过计算所有数据的总和P来判断是否存在错误。然而,受限于内存中的面积、延迟和功耗约束,实现强大的多比特错误纠正ECC面临着重大挑战。例如,SECDED(可能只需要较少的校验位,而像SEC-DEC-TAEC或SSEC这样的高级ECC技术,为了实现更强大的纠错能力,可能需要更多的校验位。原创 2024-07-15 22:50:37 · 1606 阅读 · 0 评论 -
内存架构与RAS技术概述
随着硬件规模的增长和工作负载的多样化,内存RAS技术不断演进,从基础的ECC技术到复杂的预测算法、人工智能应用,都在努力减少软硬错误带来的影响,确保数据中心的稳定运行和高效服务。在多CPU系统中,合理安排进程在不同Socket(即NUMA Node)上的分布,确保进程尽可能使用本地内存,可以减少跨Node内存访问带来的延迟,提升系统效率。:循环冗余校验技术的进步,如SSC(单符号纠正),将特定比特转换为符号,结合SPC-RS码,实现了更高的错误检测和纠正效率,减少了延迟。原创 2024-07-15 22:46:42 · 947 阅读 · 0 评论 -
数据中心内存RAS技术发展背景
此外,早期计算机科学中,如在贝尔实验室对错误数据的研究,已探索了数据冗余作为错误纠正的方法,例如通过存储三份数据来实现错误恢复,尽管这种方式带来了66%的存储冗余。对于拥有多个数据中心的大公司来说,这一成本更为显著。随着数据量的爆炸性增长和云计算的普及,数据中心内存的多比特错误及由无法纠正错误(UE)导致的停机问题日益凸显,这些故障不仅影响服务质量,还会带来高昂的修复或更换成本。高可靠性意味着设备在两次故障之间的平均时间较长,且在错误发生时,系统具备自我修复或隔离错误的功能,从而减少对系统运行的影响。原创 2024-07-15 22:41:09 · 581 阅读 · 0 评论 -
解码DNA存储革命:DINAMIC项目探秘三年内打造DNA硬盘的蓝图
这项雄心勃勃的计划,得到了欧洲委员会通过欧洲创新理事会(EIC)探路者计划的资金支持,旨在孵化颠覆性的新技术,为全球数据存储危机提供可靠、高密度、环保且经济高效的解决方案。DNA的稳定性与长期存储信息的能力,使其成为数据存档的理想选择。面对每年超过20%的数据增长率,传统数据中心的电力消耗(占全球电力的1.5%)和碳排放(每年2亿吨)成为不可忽视的环境负担。随着DNA硬盘从理论走向实践,我们正见证着信息存储领域的一场深刻变革,这场革命不仅关乎数据的未来,也是对人类如何与自然智慧共生共进的深刻探索。原创 2024-07-14 20:27:02 · 392 阅读 · 0 评论 -
科学家正致力于开发基于DNA信息存储技术的解决方案
Genomika公司与考纳斯科技大学(Kaunas University of Technology, KTU)及其他合作伙伴携手,目标是在三年内开发出基于DNA分子的自主数据归档解决方案,项目总价值超过500万欧元,得到了欧洲创新委员会(EIC)路径探索计划的支持,这是立陶宛首次获得此类项目资助。基于DNA的信息存储技术被视作市场变革者,它不仅有望解决数据存储的全球性挑战,还促进了科学研究与商业应用的深度融合,为生物技术领域带来前所未有的发展机遇。### 科学与商业的合作创新。### DNA存储的优势。原创 2024-07-10 23:44:27 · 433 阅读 · 0 评论 -
DeepMind的JEST技术:AI训练速度提升13倍,能效增强10倍,引领绿色AI革命
而未来发展趋势显示,AI能源需求将持续上升,例如单次ChatGPT请求的能耗是谷歌搜索的10倍,Arm公司CEO预测到2030年,AI将占据美国电网四分之一的电力。谷歌旗下的人工智能研究实验室DeepMind发布了一项关于人工智能模型训练的新研究成果,声称其新提出的“联合示例选择”(Joint Example Selection,简称JEST)技术能够极大地提高训练速度和能源效率,相比其他方法,性能提高了13倍,而能源效率则提升了10倍。然而,JEST方法的成功高度依赖于训练数据的质量。原创 2024-07-08 22:55:33 · 491 阅读 · 0 评论 -
顶会FAST24最佳论文|阿里云块存储架构演进的得与失-5.其他话题分享
开源软件虽然有其灵活性和开放性,但在高度定制化和深度集成的云存储解决方案中,缺乏与硬件紧密协同优化的可能性,从而限制了系统性能的极致发挥。:单个BlockServer的故障可能会影响到多个虚拟磁盘(VDs)的正常运作,这是由于传统架构中BlockServer承担了过多的职责,其稳定性直接关系到大量VD的服务连续性。这将限制EBS在成本控制和性能提升方面的进展。通过定义逻辑故障域,限制数据迁移的范围和影响,确保即使在迁移过程中出现问题,也能最大限度地减少对整个系统的冲击,避免级联故障的发生。原创 2024-07-08 22:18:51 · 1255 阅读 · 0 评论 -
顶会FAST24最佳论文|阿里云块存储架构演进的得与失-4.EBS不同架构性能提升思路
在EBS2和EBS3中,通过优化软件栈处理流程,比如分离客户端I/O与后台任务(如垃圾回收),以及采用更高效的数据处理算法,可以减少由软件引起的大延迟事件,从而改善整体的长尾延迟表现。以EBS2为例,VD的延迟受制于两跳网络(从BlockClient到BlockServer,再至ChunkServer)的延迟、软件栈处理时间(即BlockClient、BlockServer和Pangu组件的处理时间)以及SSD的I/O操作时间。,以减少内核态与用户态之间的切换开销,从而提升性能。原创 2024-07-08 22:18:12 · 1403 阅读 · 0 评论 -
顶会FAST24最佳论文|阿里云块存储架构演进的得与失-3.EBS架构演进历程
在LSBD中,数据是以日志结构的形式组织存储的,每个数据文件(DataFile)由一系列固定格式的数据块组成,每个数据块包含实际数据(4KB)和一个头部信息(64B)。通过这种方式,EBS2提升了系统的可靠性和恢复速度。尽管存在上述局限性,EBS1自2012年发布以来,在数百个集群中部署,成功服务于超过1百万个VD,并存储了数百PB的数据,证明了其在实际应用中的有效性。这种做法减少了存储空间的需求,同时通过在线(前台)EC和硬件加速的压缩技术,减少了数据在网络中的传输量,进一步优化了空间效率和网络流量。原创 2024-07-08 22:17:17 · 1367 阅读 · 0 评论 -
顶会FAST24最佳论文|阿里云块存储架构演进的得与失-2.EBS是什么?
该服务的核心设计思想是计算与存储的解耦合(Compute-Storage Disaggregation),即计算资源(运行在虚拟机VM上)与存储资源(虚拟磁盘VD)在物理上分离,它们位于不同的集群中,通过数据中心网络相连,这样做的目的是为了提升资源的灵活性和扩展性。Elastic Block Store(EBS)是云基础设施的重要组成部分,广泛应用于需要高性能、灵活扩展和高可用性存储的云服务场景,如数据库服务、大数据处理、内容管理系统等,为用户提供稳定可靠的存储服务。(图片来自阿里云官网)原创 2024-07-08 22:16:06 · 479 阅读 · 0 评论 -
顶会FAST24最佳论文|阿里云块存储架构演进的得与失-1.引言
本文小编将结合论文内容进行学习解读,以供各位读者参考!今年早些时候,2月份举办的全球计算机存储顶会USENIX FAST 2024,最佳论文来自阿里云,论文名称《:阿里云已经是第二次斩获FAST顶会最佳论文奖,去年凭借大规模慢盘检测的文章获得FAST23最佳论文。本文内容均为公开信息内容整理,仅代表个人观点,不代表任何公司或机构组织,仅供学习交流!原创 2024-07-08 22:15:11 · 452 阅读 · 0 评论 -
放大招了|十亿参数大模型LLMs运行功耗仅需13W,内存使用量减少90%!
借助定制硬件,模型在仅13瓦特功率下实现了超越人类阅读速率的输出,相比之下,使用GPU大约需要700瓦特的功率,这意味着定制硬件的效率是GPU的50多倍。其次,研究者调整了矩阵之间的通信策略,不是将一个矩阵中的每个数字与另一个矩阵中的每个数字相乘,而是设计了一种只执行最重要运算的策略,通过叠加矩阵并仅计算最关键的部分,达到与矩阵乘法相同的效果,但大大减少了计算成本。尽管计算量减少,但通过引入基于时间的计算训练模型,研究者能够保持神经网络的性能,使网络能够“记住”处理的关键信息,从而提升表现。原创 2024-06-27 22:54:07 · 879 阅读 · 0 评论