新爷话数据-CSDN博客

原创分布式存储的那些事

什么是分布式存储？传统的网络存储系统是采用集中的存储服务器存放所有数据。随着数据的增加，系统可靠性与安全性的弊端日趋显现，无法满足大规模的存储应用需要。分布式存储系统是将数据分散存储在多台独立的设备上。采用可扩展的系统结构，利用多台存储服务器分担存储负荷、定位存储信息，不但提高了系统的可靠性、可用性和存取效率，还易于扩展。分布式平台的优势又有哪些分布式平台是将数据存储、数据分析和计算等构建在多个主机构成的集群上的软件平台。有些数据问题本身的规模超出了单机系统容量或计算能力，所以需要利用多台计算

2021-12-06 16:44:44 2051

原创提高数据管理的效率利器--动态数据集合

管理数据的黑科技不容错过

2022-07-01 18:54:33 235 1

原创 “存算分离”是大数据建设的必然趋势？存算协同才是真的香！

存算分离？其实数据存管协同才真的香

2022-06-20 15:30:35 463

原创数据其实也有温度

非结构化数据的今天，到底应该如何去管理

2022-06-15 11:26:12 851

原创非结构化数据传统管理的弊端

海量非结构化数据已经到来随着数据的海量增长和潜在价值的不断提升，数据已经成为最重要的资产，各行各业都释放出海量数据。据Gartner估计，从2019年到2024年，非结构化数据容量预计将增加两倍。然而作为“庞然大物“，却成为企业存储中“隐秘的角落”。尽管企业花费了大量成本长期存放这些数据，也未必能够带来满意的附加价值，而管理不当，则会令企业蒙受相当大的损失。这可以说与企业在大数据时代的追求背道而驰，是所谓“数据价值”背后隐秘的幽暗。非结构化数据为什么难管理？.........

2022-06-06 17:10:50 910

原创 Docker日常使用

Docker介绍Docker是目前使用率最高的容器技术，详细技术介绍可以参考Docker官方网站（https://docs.docker.com）或者中文社区（docker中文社区,docker帮助,docker手册,docker教程,docker安装手册 - docker中文社区）。对生信用户来说，Docker容器提供了独立的程序运行环境。不同用户通过使用不同的Docker镜像，拥有了独立的运行环境，包括使用自己熟悉的Linux发行版（centos、ubuntu等等），使用自己需要的软件...

2022-05-30 17:00:49 154

原创让存储更高效的关键--智能数据分层

近年来，人工智能、生命科学、高性能计算这些前沿行业，每天都在输入大量非结构化的数据，为了保存和维护好数据这个新型的生产要素，企业每年支付用于非结构化数据存储上的成本也在快速增长。数据也有冷热之分对于很多企业来说，尤其生物信息公司，由于数据量庞大，数据按照被使用的频率，通常被划分为热数据、温数据和冷数据。同一数据，在生命周期的不同阶段，也会经历热/冷/温三个阶段。热数据特点：数据量少，访问频率较大，对于性能要求高，经常对数据进行操作。冷数据特点：数据量大、访问频率较低、对于性能要求低、对...

2022-05-26 10:28:09 199

原创 Docker日常使用

Docker 介绍Docker是目前使用率最高的容器技术，详细技术介绍可以参考Docker官方网站（https://docs.docker.com）或者中文社区（docker中文社区,docker帮助,docker手册,docker教程,docker安装手册 - docker中文社区）。对生信用户来说，Docker容器提供了独立的程序运行环境。不同用户通过使用不同的Docker镜像，拥有了独立的运行环境，包括使用自己熟悉的Linux发行版（centos、ubuntu等等），使用自己需要的软件...

2022-05-20 11:22:57 182

原创 Kubernetes(k8s)的前世今生

理解云计算的实质，Kubernetes就好理解了，它提供的是容器云。在私有数据中心，服务运行在物理主机的Host OS上，云计算场景下运行在虚拟机上，k8s场景下应用运行在容器内，容器替代了虚拟机。容器是什么?在Linux上，容器技术的底层实现机制是Linux Kernel的Control Group（CGroup）。它维护各种各样的名字空间（进程ID，IPC，网络等等），并按照Group管理系统资源分配和释放。可以在每个CGroup上施加限制（CPU、内存、IO等等），确保资源的使用配额...

2022-05-09 17:16:37 1427 1

原创分布式文件存储系统不得不说的灵动元数据服务

在文件系统中，不光只有数据重要，作为“数据的数据”，元数据更加重要，因此文件系统的元数据布局和元数据服务的架构设计决定了一个文件系统的可靠性，可达到的规模上限，扩展能力以及数据访问性能。本文我们就来分布式文件存储系统是如何设计元数据架构的。元数据的重要性元数据是用来描述文件系统和文件特征的系统数据，例如文件类型、文件大小、访问权限和数据索引信息等。用户在访问文件数据之前，需要访问文件的元数据以获得文件的基本属性信息和数据的索引信息。在分布式文件系统中，超过50%的文件操作都是针对文件元数据的操...

2022-04-25 15:36:28 3655

原创分布式存储高性能的好帮手--RDMA

RDMA如果成为分布式高性能的好帮手

2022-04-19 11:11:12 2911

原创当生物信息遇见机器学习

随着遗传学、育种学的不断发展和人类基因组计划和分子生物学的日益发展，生物学数据在短短的几十年里得到了爆发式地增长。比如生物信息学里面的：回归分析、随机森林、支持向量机等算法，都是比较成熟的应用了。那今天本文，就给大家剖析一下当生物信息遇见机器学习，会有什么火花。那开始讲生物信息与机器学习之前，我们要先阐述几个概念：1.什么是生物信息学的数据2.什么是GWAS什么是生物信息学的数据研究的数据类型，可以根据术手段分为基因型数据（GenoType Data）、表达量数据等；那其中基因型数据..

2022-04-08 17:44:36 1365

原创为什么需要存储系统？

大家好。我是新爷。上周我阐述了一下，到底什么是存储，我们这周给大家去讲为什么需要存储系统？最简单的答案是：存取数据。硬盘不行么？硬盘当然可以，但发展到现在的存储，其实和硬盘有着密不可分的关系。今天听我给大家念叨念叨，存储的发展史跟硬盘有啥关系？其实早在磁盘诞生没多久，人们存储数据就会有以下的疑问？1.数据真的是连续写在磁盘上的么？其实磁盘是个连续的线性“地址空间”，比如你买了一个8TB的硬盘，那么你认为它是一个线性的地址空间，你想从第0字节一直存数据存到底8T-1字节..

2022-03-25 12:09:25 1458

原创到底什么是存储？

大家好，我是新爷。在这里我一直都在阐述着关于生信方面，数据方面的一些文章~那今天我给大家说说到底什么是存储。简单的来说，存储就是用来存数据的，有下机数据，有中间结果数据，有最终结果数据。但很多人把“存储系统“和”硬盘“划等号，其实这不是一回事儿！存储系统需要硬盘，但存储系统不等于硬盘！存储系统其实由三个部分组成：介质（硬盘，闪存，SCM等），控制器硬件（CPU，内存，主板），系统软件。存储是FISH（Fully integrated Software and Hardwar...

2022-03-22 11:08:29 3803

原创对象存储是文件存储的替代品吗？

网络上有很多人在鼓吹对象存储是未来，文件存储是old school，但是我认为这种说法不正确，是他人的误解或者误导。文件存储和对象存储有共同点：都可以在多个客户端之间分享非结构化数据。但是最大差别是：语义。对象存储适合的场景：1、一次写，不修改，多次读。上传结束就是文件修改结束。（比如互联网的图片，音视频等）2、基本没有随机访问共享数据内部位置的需求。如果有，你得先顺序完整的把数据从对象存储下载到本地，在本地文件系统上想顺序顺序，想随机随机。3、没有多个客户端同时修改一个文件的需求。

2022-03-08 10:59:43 375

原创 Linux Shell 版本问题

Docker技术给老百姓的生活带来便利可以说非常显著。在过去如果想要安装一个软件，面里的最大问题大概就是相关依赖安装和编译环境，在虚拟化环境下一切就变得井然有序得多，但是Docker技术带来的负面影响就是由于程序是直接封装的，如果非镜像的制作者，难以得知软件运行的细节。这就造成了一系列问题（例如环境变量、shell版本等）。采用Achelous调度系统，可以比较轻松得解决环境变量问题，但是Linux Shell版本的问题，还是需要用户自己留个神。本文就目前常见的Linux Shell版本进行基础介绍，尤

2022-03-02 16:35:53 931

原创数据如何高效处理？

随着企业级海量数据爆发，数据处理分析模式的多样化，数据是如何加工、分析、处理的？数据计算技术百家争鸣，不可一枝独秀海量数据或者大数据是近十年非常流行的名词，与之相伴的是各种眼花缭乱的框架例如Hadoop、Spark、Hive、Storm、Flink等等，让企业和他们的IT工程师们应接不暇。每一种技术都声称自己的革命性创新，可以大幅度提升性能，颠覆既有框架。但时间证明它们谁也取代不了谁，只是各自适用不同的场景和问题。这背后的根本原因是大数据不仅仅是指数据量大，更重要的是数据处理模式和应用场景的多样性。

2022-02-24 17:18:15 1656

原创生信常见文件格式 bed

bed文件是记录基因组位置信息的标准文件格式，同时也用于存储与位置相关的信息，例如在ChIP-Seq 分析中，长以bed文件存储检测信号强度的信息、结构变异检测（SV）结果也可以用bed文件或bedpe文件进行存储。可以说，bed文件格式的应用范围非常广泛。除了bed文件之外，gtf文件格式和其发展版本gff文件格式，也是常用的记录基因组区间位置的文件格式；GATK 团队针对基因组版本管理的基本需求，规定了interval list 文件格式强绑定bed文件与基因组之间的依赖关系等等。这类文件的基本规则

2022-02-14 12:01:41 7923

原创如何用好内存资源

相比CPU，内存（Memory）是更复杂的硬件资源，原因在于操作系统对两种资源的处理方式不一样。虽然CPU和Memory都可被多个进程分时共享，但共享的代价差别很大，这在很大程度上影响了用户对两种资源的使用。操作系统的内存魔法为了回答用户关于内存使用的问题，我们需要先了解操作系统的内存管理机制。内存分层体系冯诺依曼计算机体系结构的要点是存储程序计算，其中内存承载程序指令和数据，是关键的性能影响因素。现代操作系统采用内存分层体系，利用程序执行和内存访问的局部性原理最大化高速内存设备的利用率，优

2022-02-07 14:22:25 465

原创变异记录文件格式 vcf

vcf文件做记录个体或群体突变的文件格式，在生物信息学应用中举足轻重。主流的生物信息分析软件，在处理变异信息时，也基本上需要考虑支持解析或输出vcf格式的文件。本文在介绍vcf文件格式的基本格式的同时，对vcf文件记录的细节进行描述。希望对广大开发者和生物信息学从业人员起到帮助。1.vcf文件概述vcf文件格式是变异结果存储的标准格式，一般多用于单核苷酸变异（SNV）或小片段的插入缺失（indels）的结果记录。除此之外，vcf文件也可以存储其他变异形式，比如CNV（拷贝数变异）、SV（结构变异）等

2022-01-28 17:08:02 4547 1

原创 DNA测序也有批次效应？

对于测序结果而言，基因型分型数据结果一般而言是最为稳定的内容。从原理上说，一个个体的胚系基因型在出生以来就应该是确定的（免疫细胞除外），因此如果测序是针对DNA的，那么结果一般是确定的。但是事实上，在变异检测方面，不同测序中心、不同年份的数据间确实是存在批次效应的。这种批次效应最直接的体现，就是对结果进行PCA分析时，同一人群中抽样子集存在明显的分离情况。（文献参考：Identifying and mitigating batch effects in whole genome sequencing dat

2022-01-27 18:06:45 656

原创生物信息学数据格式

生物信息学数据格式

2022-01-21 11:17:41 1459

原创如何用好CPU资源？

应用程序运行于操作系统之上。现在操作系统，无论是Linux、Unix或Windows，分时复用是基本的CPU调度方式。本文仅就Linux操作系统，结合Achelous平台，探讨如何高效使用CPU资源。资源cpus在物理上对应什么？Achelous平台上用户申请的CPU资源都是逻辑CPU核，并不一定和任何物理CPU、核心或者超线程对应。如果没有打开核的超线程选项，物理CPU的每个核在操作系统中体现为一个逻辑CPU核。如果打开了超线程技术，每个核会有两个物理线程，每个线程在操作系统中就是一个逻辑CPU核

2022-01-19 10:26:49 611

原创 “存算”协同，让存储发挥极致性能

高性能计算（HPC）、人工智能（AI），大数据（BigData）是当今数据密集的企业所面临的重大机遇和挑战，更多“数据大”企业开始关注IT基础设施和架构的革新。作为数据的最终归宿和一切分析计算的基础，存储设备的稳定性，扩展性，和性能表现成为了IT系统优化工作的重中之重。然而，大多数企业可能不甚了解，存储系统的高性能，其实是相对的，有高带宽的、有高IOPs的、有元数据性能表现出色的。不可能在单个系统中各个维度都追求极致性能表现。存储性能常见优化方式通常而言，带宽（吞吐量）和每秒I/O操作数（IOP

2022-01-17 16:23:06 2993

原创文件存储系统

文件存储系统

2021-12-29 15:29:26 1107

原创存储系统概述

存储系统其实由三个部分组成：介质（硬盘，闪存，SCM等），控制器硬件（CPU，内存，主板），系统软件。存储的核心一直都是：系统软件。DELL/EMC既不生产控制器硬件：CPU，内存，主板；也不生产介质：硬盘和闪存。作为世界上最大的存储公司EMC（其实硬件就是X86存储服务器和普通的硬盘/闪存盘），真正的核心是软件，存储系统软件，也就是广义的“文件系统”。江湖中的传说：“编译器和操作系统是计算机科学的皇后”。系统软件中最核心的是操作系统，包括五大功能：1.设备管理 2.内存管理 3. 进程调度 4

2021-12-28 14:06:25 1378

原创数据，不仅仅止于存储

无论多高端的存储系统，首先提供给用户的都是存储“空间”，这些空间既可以是通过“地址”访问的（地址空间），也可以是通过“名字”访问的（名字空间），特别是非结构化的存储系统（文件存储、对象存储），需要在空间之外，提供有效的数据管理。如何根据某一数据特征在一个目录过千万、文件数上亿的存储系统中查找到所需数据一直是一个巨大的挑战。遍历存储系统是最直接的，当然也是最差的方法。首先，遍历存储系统意味着需要漫长的等待，而更麻烦的是往往不知道具体要等多久；其次，我们知道遍历动作本身是一个元数据密集型的应用，

2021-12-21 17:00:43 148

原创数据和计算系统如何容错？

容错是大规模数据系统和计算系统的必备功能，不能容错的分布式系统基本没有可用性。大家可能觉得高质量的系统错误率没有那么高，实质上系统的故障率总是随着系统规模和复杂程度增加。笔者读书的时候曾经听过一位参与过先进飞行控制系统设计的专家讲课。这位专家有一句原话是说飞机大多是带故障飞行的。笔者很多研究无人机的师兄们都有意无意的避免坐飞机。笔者坐飞机也会再三确认购买保险 :) 这不是吓唬大家，只是为了说明容错与我们息息相关。本篇我们来聊聊系统容错的方方面面。1. 可靠性从哪里来1.1 安全、可靠与可用安全（

2021-12-13 16:06:12 2764

原创计算框架如何提升并行编程效能？

在计算密集型或者数据密集型的应用场景，多机并行处理是提升性能的常用方法。并行编程不仅仅是一个编程问题，它涉及到数据访问、多机通信和资源调度，应用开发人员不可能从头造轮子解决所有问题，借助于编程框架是不可避免的趋势。究竟框架如何提升并行处理的效能呢？本篇我们聊聊这个话题。01并行如何提升计算效率？1.1分而治之是王道计算机算法中常常将一个大问题分解成若干个小问题来解决，这就是所谓的分治法(Divide-Conquer)。如果不同的小问题可以交由单台机器的N个CPU（泛指逻辑CPU，包括CPU、..

2021-12-10 14:18:25 1097

原创一切靠自己的MPI框架

MPI是高性能计算常用的实现方式，它的全名叫做Message Passing Interface。顾名思义，它是一个实现了消息传递接口的库。MPI作为编程库很丰满，作为计算框架很骨感。它的好处在于一切自己动手，不利也在于一切全靠自己。本文的目的不是探讨如何使用MPI，MPI标准是这方面最有参考价值的文档。本文笔者仅仅讨论它在并行编程上的特点，帮助用户决定何时或在何种场景下使用MPI。1.什么是MPI？MPI是一个跨语言的通讯协议，支持高效方便的点对点、广播和组播。它提供了应用程序接口，包括协议和和

2021-12-09 15:09:54 2272

原创一文详解数据存储那些事儿

按照存储系统的架构来讲，存储系统可以简单的划分成分布式存储系统和非分布式的存储系统（也有用集中式存储系统来称呼那些传统的不能横向扩展的外部存储系统）。分布式存储 vs. 集中式存储集中式存储系统最早的企业级外部存储系统多数是双控制高可用架构，例如典型的SAN磁盘阵列和早期的企业级NAS。集中式存储系统除了具备数据高可靠性和高可用特性以外，还有数据通路的访问响应延迟相对较低的优点。但是缺点是随着用户容量和性能的需求增加，扩展能力有限。分布式存储系统与之对应的是分布式存储系统，除了依旧需要以

2021-12-03 15:35:23 312

Xtaotech的博客

原创分布式存储的那些事

原创提高数据管理的效率利器--动态数据集合

原创 “存算分离”是大数据建设的必然趋势？存算协同才是真的香！

原创数据其实也有温度

原创非结构化数据传统管理的弊端

原创 Docker日常使用

原创让存储更高效的关键--智能数据分层

原创 Docker日常使用

原创 Kubernetes(k8s)的前世今生

原创分布式文件存储系统不得不说的灵动元数据服务

原创分布式存储高性能的好帮手--RDMA

原创当生物信息遇见机器学习

原创为什么需要存储系统？

原创到底什么是存储？

原创对象存储是文件存储的替代品吗？

原创 Linux Shell 版本问题

原创数据如何高效处理？

原创生信常见文件格式 bed

原创如何用好内存资源

原创变异记录文件格式 vcf

原创 DNA测序也有批次效应？

原创生物信息学数据格式

原创如何用好CPU资源？

原创 “存算”协同，让存储发挥极致性能

原创文件存储系统

原创存储系统概述

原创数据，不仅仅止于存储

原创数据和计算系统如何容错？

原创计算框架如何提升并行编程效能？

原创一切靠自己的MPI框架

原创一文详解数据存储那些事儿

空空如也

空空如也