当下,全球都在加速人工智能布局,将其作为战略性技术之一。作为较早发布人工智能战略的国家之一,中国政府将人工智能技术视为产业变革的核心力量,人工智能不仅是技术创新,更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要更是将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建,促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新,加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展,促进产业优化升级、生产力整体跃升。
但是由于缺乏高效经济的AI算力资源池化解决方案,导致绝大部分企业只能独占式地使用昂贵的AI算力资源,带来居高不下的使用成本。在此背景下,趋动科技基于红帽技术,OrionX和OpenShift相结合,推出基于AI算力资源池的云原生解决方案。
图表1趋动科技完成红帽官方认证
方案简介
红帽OpenShift是一个现代化的应用运行的平台,能够帮助企业开发、部署和管理各种不同类型的应用并无缝地运行在不同的基础设施平台上,比如物理机、虚拟机、私有云和公有云等。OpenShift以容器技术和Kubernetes框架为基础,在此之上扩展提供了软件定义网络、软件定义存储、权限管理、企业级镜像仓库、统一入口路由、持续集成流程(Tekton/Jenkins)、统一管理控制台、监控日志等功能,形成覆盖整个软件生命周期的解决方案。
趋动科技的OrionXAI算力资源池化解决方案帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。OrionX不但能够帮助用户提高AI算力资源利用率,而且可以极大便利用户AI应用的部署。OrionX通过软件定义AI算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加软件层,将AI应用与物理GPU解耦合。AI应用调用逻辑的OrionXvGPU,再由OrionX将OrionXvGPU需求匹配到具体的物理GPU。OrionX架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。
趋动科技OrionXAI算力资源池化解决方案为红帽OpenShift平台提供算力资源池化管理的能力,为用户提供整体解决方案,让企业内的AI应用共享数据中心内所有服务器上的GPU算力。AI开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让应用开发变得更加便捷。根据客户测算,OrionX猎户座软件可以每年提升50%AI算法工程师人效、提升AI资源利用率3-8倍以及让客户总体拥有成本下降80%。
图表2OrionX为OpenShift平台提供算力资源池化管理能力
主要能力
1.“化零为整”功能
OrionX支持将多台服务器上的GPU提供给一个虚拟机或者容器使用,而该虚拟机或者容器内的基于Horovod框架的AI应用无需修改代码。通过这个功能,用户可以将多台服务器的GPU资源聚合后提供给单一虚拟机或者容器使用。“化零为整”支持训练等大模型场景,为用户的AI应用提供数据中心级的海量算力。
图表3OrionX逻辑架构图
2.“隔空取物”功能
OrionX支持将虚拟机或者容器运行在一台没有物理GPU的服务器上,通过计算机网络,透明地使用另一台服务器上的GPU资源,该虚拟机或者容器内的AI应用无需修改代码。通过这个功能,OrionX帮助用户实现了数据中心级的GPU资源池,实现了AI应用和GPU物理资源的解耦合,允许用户的AI应用无障碍地部署到数据中心内的任意服务器之上,并且能够透明地使用任何服务器之上的GPU资源,同时也消除了原有架构中CPU和GPU资源配置固定带来的配比限制问题。
3.“化整为零”功能
OrionX支持将一块物理GPU细粒度切分成多块vGPU,然后分配给多个虚拟机或者容器。每一块vGPU的显存和算力都能被独立设置和限制。通过这个功能,用户可以高效地共享GPU资源,提高GPU利用率,降低成本。
图表4OrionX“化零为整”逻辑架构图
算力切分的最小颗粒度为原物理GPU算力的1%;显存切分的最小颗粒度为1MB。
4.通过化整为零功能支持推理“随需应变”功能
OrionX支持用户在虚拟机或者容器的生命周期内,动态分配和释放所需要的GPU资源。通过这个功能,OrionX帮助用户实现了真正的GPU资源动态伸缩,极大提升了GPU资源调度的灵活度。
OrionX支持vGPU资源按需分配、随用随取,最大限度的利用算力资源。不论是大模型训练,还是小模型推理的环境中,用户都可以按照AI模型需求,动态的调整算力资源大小,而无需重启挂载vGPU的虚拟机/容器。OrionX支持vGPU资源预留模式和获取模式:
>预留模式:和使用物理GPU类似,客户申请的vGPU是独占的,不可被其他用户使用。
图表5OrionX“随需应变”逻辑架构图
>获取模式:客户申请的vGPU是动态的,只有在客户的AI应用运行时,vGPU资源才锁定到具体的物理GPU,一旦AI应用结束,物理GPU资源及时释放。
创新点
1.改变GPU算力资源使用方式
通过软件定义算力的方式,将传统GPU资源以整卡为单位进行分配,变为以算力1%,显存1MB为基本单位进行资源提供。
2.GPU算力资源池化
支持GPU的跨节点调用,AI应用可以部署到数据中心的任意位置,不管所在的节点上有没有GPU。GPU资源供应范围从单个节点扩展到由网络互联起来的整个数据中心。
3.GPU资源云化
数据中心内GPU资源按需调用,动态伸缩,用完释放。AI应用可以根据负载需求调用任意大小的GPU,甚至可以聚合多个物理节点的GPU;在容器或虚机创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用。
4.异构算力统一管理
OrionX支持异构算力的统一管理,除了支持市面上主流的全系列GPU卡之外,还积极适配国产芯片,助力打造中国“芯”生态,当前已全面支持寒武纪MLU芯片,帮助用户统一纳管异构算力,提升多算力平台管理能力及效率。
异构算力池化解决方案和红帽OpenShift云原生平台相结合,能够帮助用户构建GPU资源池,为用户实现全局管理、调度GPU资源、共享数据中心内所有服务器上的GPU算力等目标,并通过全分布式部署,实现资源池的弹性扩展。同时,节省硬件成本,使算力资源利用更高效。
关于红帽
红帽是世界领先的企业开源软件解决方案供应商,依托强大的社区支持,为客户提供稳定可靠而且高性能的Linux、混合云、容器和Kubernetes技术。红帽帮助客户集成现有和新的IT应用、开发云原生应用、在业界领先的操作系统上开展标准化作业,并实现复杂环境的自动化、安全防护和管理。凭借一流的支持、培训和咨询服务,红帽成为《财富》500强公司备受信赖的顾问。作为众多云提供商、系统集成商、应用供应商、客户和开源社区的战略合作伙伴,红帽致力于帮助企业做好准备,拥抱数字化未来。
关于趋动科技
趋动科技作为软件定义AI算力技术的领导厂商,专注于为全球用户提供国际领先的数据中心级AI加速器虚拟化和资源池化软件及解决方案,已完成中关村高新、国高新、“专精特新”等企业认证,并认证了ISO9001和ISO27001资质。趋动科技拥有专业的研发、运营和服务团队,被评为WISE2020「新基建创业榜」最具成长性创业公司TOP20、「REAL100创新家」、「2021创业邦100未来独角兽」、「投中2021年度中国人工智能与大数据产业最佳投资案例Top10」等。
基于完全自主可控的GPU虚拟化和池化技术及国产生态上下游的打通,趋动科技致力于打破国产化基础设施适配困难、多种架构的信创产品适配效率低、缺少统一的信创资源服务平台的窘境,希望凭借自身力量,帮助行业逐步建立国产IT底层架构和标准,形成自有开放生态,解决核心技术关键环节“卡脖子”的问题,助力国产化应用的创新发展。
上一条:被开出年薪百万!建筑师转行天花板是进军元宇宙?
下一条:(红帽)该如何在汽车中运行容器?