技术博客

上海某制药公司的HPC技改方案

龙骧网络 复制链接
摘要:LeoStor以其优异的大小文件数据线性吞吐能力、单卷300PB、简单易用的横向扩展和系统运维,超过传统的NAS over FC-SAN和Ceph架构存储,可广泛使用在 HPC,AI的存储网络中,优异的架构可让存储节点融合GPU卡和部署应用系统,让系统的性价比更高。

项目背景

客户的生产业务为基因计算,每次计算大约产生一百万个文件。其中大文件有60%左右,小文件有40%左右。这些文件的总大小在1.5T左右,每周会进行3~4次这种规模的计算任务。

原有的计算环境为:32台计算节点同时进行基因方面的计算,GlusterFS提供存储服务,该存储硬件具体信息如下,共三个节点,每个节点36块6T SATA盘,做Raid6,三个节点间做Raid5,可用容量在432T,存储集群输出的带宽在1.5GB/s~2GB/s ,无法满足客户进一步的计算需求。

  1. 在计算过程中,由于GlusterFS线程数的限制,客户的32个计算节点集群的单台利用率只有20%左右,严重浪费了计算节点的硬件资源;
  2. 在计算任务开始的半小时左右会出现峰值,由于线程数的限制所以后续的任务都在等待中,而这个时候存储性能已经达到了峰值,导致生产任务完成的时间大大延长;
  3. 在计算结束时的峰值,任务结束之后数据写入存储时的峰值,由于GlusterFS所能提供的带宽在1.5GB/s-2GB/s左右,计算节点在任务结束之后所产生的数据量比较大,而写入的速率太慢,导致任务结束时间太长;

LeoStor存储设计

经过分析,客户原使用108块硬盘,本次新建存储系统,依然选择108块盘,采用LeoRaid 4+1冗余模式,允许1个节点宕机或1块硬盘故障,且需要1个节点故障时,原有数据可读,而数据又可写,则最少需要配置N+M+M个节点,N=4,M=1,则系统最少安全配置节点为6个,选择希捷SATA 4TB企业级硬盘,每个节点18块盘,总集群存储可用空间为:4TB * 108 * 80% = 345TB 。

设备 配置 数量
元数据节点
  1. 品牌:五舟2U 12盘位服务器;
  2. CPU: E5-2620 v4 ;
  3. 内存:32G;
  4. 存储盘:2 * 960G Intel DC SSD;
  5. 网络:2*10GE
2
存储节点
  1. 品牌:五舟4U 24盘位服务器;
  2. CPU: E5-2620 v4 ;
  3. 内存:128G;
  4. 存储盘:18 * 4TB希捷SATA;
  5. 网络:4*10GE
6
交换机 华为 S6720-32X-LI-32S-AC 2

交付测试

使用iozone做存储压力测试,netperf做网络测试,atop做性能监控,LeoStor与GlusterFS测试参数和流程一样。

LeoStor 集群测试,1MB粒度和128K粒度,按照6:4混合测试结果为(读/写):5.97GBps / 5.5GBps。

客户收益

  1. 存储性能提升2倍以上,提高了计算业务的工作效率;
  2. 完备的Web监控,可以查看硬件的运行状态和温度等;
  3. 高效的硬盘故障数据恢复,较原来双Raid方案,只需要20%的时间;