2025-04-03
平台名称:谛听开发平台DiTing-Stack
平台类型:开发平台
开发技术:分布式版本控制、DevOps技术、大规模数据分布式读写(HDFS)、Ray分布式计算、MLOps技术
平台功能:数据服务,分布式训练服务,大模型管理、训练记录、性能对比等
完成团队:中国地震局地球物理研究所 韩建成、张劭贤、李永波、张贝等
联系方式:esdc@cea-igp.ac.cn
说明:
谛听开发平台DiTing-Stack是基于DevOps理念构建的智能开发运维协同平台,采用模块化设计,其整体技术架构如图1所示。平台DevOps功能包含4个协同子系统实现软件交付的自动化:1)基于GitLab搭建的分布式版本控制系统,提供代码仓库管理、分支策略配置、权限管控等功能;2)基于Jenkins自动化服务器实现的智能构建流水线,通过持续集成和持续部署实现代码的测试和部署,确保顺利集成更改并检测漏洞;3)基于Harbor的Docker镜像仓库,提供镜像存储、权限控制、分布式发布等功能,实现对Docker镜像的安全、高效管理;4)基于Kubernetes(简称K8s)的容器编排引擎,用于自动化部署、扩展和管理容器化应用程序,确保应用程序的高可用性和弹性部署。
图1 DiTing-Stack平台DevOps功能技术架构
谛听开发平台DiTing-Stack作为核心研发支撑体系,现已成功整合了Geoist地球物理分析系统和DiTingBench地震数据智能处理系统两大产品(图2)。DiTing-Stack可为专业级科研工具的持续创新提供有力的技术底座。
在DevOps功能基础上,谛听开发平台DiTing-Stack目前新增MLOps(机器学习运维,Machine Learning Operations)功能,同样采用模块化架构设计,其整体技术架构如图3所示。平台MLOps核心功能架构包含3个协同子系统:1)依托HDFS(Hadoop Distributed File System)构建的数据服务系统,支持大规模数据的分布式存储与高效检索;2)基于Ray计算框架搭建的弹性训练集群,实现算力的动态调度与分布式模型训练;3)整合MLFlow的全生命周期管理模块,提供从实验追踪、模型版本控制到生产部署的一系列解决方案。通过各子系统的协同运作,平台目前已实现对谛听大模型研发全生命周期任务的支持,并为谛听大模型上下游工作提供环境保障。
该平台目前提供以下服务功能:1)多模态数据访问服务,支持结构化与非结构化数据的统一接入;2)分布式异构训练服务,兼容主流深度学习框架的并行计算需求;3)模型管理服务,实现训练记录、模型版本、元数据及依赖关系的全流程管控; 4)模型部署功能。
图3 DiTing-Stack平台MLOps功能技术架构