VMware Cloud Foundation (VCF) 9.0 的发布,正值企业 IT 战略的一个关键转折点。一股将工作负载从公有云迁回的浪潮正在兴起,其驱动力源于企业对成本透明度、安全性、性能控制和数据主权的日益增长的需求 1。Broadcom 的调查数据证实了这一趋势,高达 69% 的企业正在考虑或已经开始将工作负载从公有云平台迁回 1。在此背景下,VCF 9.0 被定位为 Broadcom 捕获这一市场动向的决定性平台,旨在提供一个融合了公有云敏捷性与本地部署控制力的“现代化私有云” 3。
本报告将对 VCF 9.0 中两项最具影响力的创新技术进行技术解构,这两项技术直接响应了上述市场需求:vSAN 9.0 的深层架构增强,以及首次引入的与虚拟机管理程序集成的 NVMe 内存分层。我们将分析它们的技术实现、性能影响和战略价值,并最终将其与其它内存扩展技术进行批判性比较。
报告将分为四个部分。
第一部分将深入剖析 vSAN 9.0 的新功能。
第二部分将详细解读 NVMe 内存分层的机制。
第三部分将对 VMware 的内存分层技术与 CXL 和 MemVerge 进行详细的比较分析。
最后,第四部分将综合这些发现,提炼出战略性见解与建议。
第一部分:深入剖析 vSAN 9.0 的增强功能
1.1 架构飞跃:vSAN Express Storage Architecture (ESA)
vSAN 9.0 中最重要的一系列创新都构建于 vSAN Express Storage Architecture (ESA) 之上。该架构自 vSAN 8 引入以来,现已成为新 VCF 部署的基础 5。与传统存储架构 (Original Storage Architecture, OSA) 所采用的缓存与容量分层不同,ESA 利用由 NVMe 设备组成的单层架构 7。
ESA 的核心是一种全新的、获得专利的日志结构文件系统 (vSAN-LFS)。该设计能够快速接收数据,并将其组织成全条带写入,这对于在不产生传统“读取-修改-写入”性能惩罚的情况下,实现纠删码 (RAID-5/6) 的高性能至关重要 6。诸如压缩和加密等数据服务被移至 vSAN 堆栈的顶层,在数据通过网络传输前仅执行一次,从而显著降低了 CPU 和网络开销 9。
Tip
日志结构文件系统(Log-Structured File System,简称LFS)是一种文件系统设计方法,其核心思想是将所有的写操作以顺序追加的方式写入到一个日志(log)中,而不是随机地修改磁盘上的数据块。这样设计的目的是提高写入性能,减少磁盘寻道时间,并简化崩溃恢复过程。
1. 背景与动机
传统文件系统在写操作时,通常需要随机地更新磁盘上的元数据和数据块,这会导致频繁的磁盘寻道和写放大,降低写入性能。特别是在磁盘随机写操作代价很高的情况下,性能瓶颈明显。
日志结构文件系统的提出,主要是为了优化写性能,特别是在大量小写操作或元数据更新频繁的情况下,通过将写操作变成顺序写入,显著提升磁盘写入效率。
2. 工作原理
顺序写入日志
LFS将所有修改(数据块和元数据)先缓存到内存中,然后将它们作为一组“段(segment)”以顺序方式写入磁盘的日志区。日志以追加的形式增长。
段(Segment)
磁盘被划分为多个固定大小的段,写入时按照段为单位顺序追加。每个段包含多个数据块和元数据块。
索引结构
LFS维护一个索引(通常是一个叫做inode map的数据结构),将文件的inode号映射到其最新的物理位置。索引本身也被写入日志。
垃圾回收(Cleaning)
随着写入日志的继续,旧的日志段中的数据可能被更新而变得过时。LFS通过垃圾回收机制,回收包含大量过时数据的段,将仍然有效的数据重新写入新段,从而回收空间。
崩溃恢复
由于所有写操作都是顺序追加日志,崩溃恢复时只需扫描日志,重建索引即可,简化了恢复过程。
3. 优点
高写入性能
顺序写入减少了磁盘寻道时间,特别适合磁盘随机写性能差的设备。
简化恢复
日志结构天然支持崩溃恢复,数据一致性容易保证。
适合写密集型应用
如数据库日志、邮件服务器等。
4. 缺点
读性能可能下降
由于数据分散在日志中,随机读取时可能需要更多的寻道。
垃圾回收开销
垃圾回收过程需要额外的I/O和CPU资源。
实现复杂度
需要维护索引映射和高效的垃圾回收机制。
5. 典型实现与应用
BSD LFS
由Mendel Rosenblum和John Ousterhout于1991年提出,最早的日志结构文件系统实现。
现代变种
如WAFL(NetApp)、ZFS和一些闪存文件系统采用了日志结构思想,结合写时复制(Copy-on-Write)技术。
向 ESA 的转变不仅是一次增量更新,更是一次根本性的架构重塑。它旨在解决 OSA 中固有的性能瓶颈,后者是为网络较慢、存储分层(HDD 和 SSD)的时代而设计的 6。OSA 的设计,包括其独立的缓存/容量层和基于每个磁盘组的数据服务,是其时代的产物,旨在平衡昂贵的闪存与廉价的磁盘。随着 NVMe 的普及和网络速度的提升(25/100GbE),OSA 的数据路径本身成为了瓶颈,在磁盘组内进行内联去重等功能带来了性能上的妥协 6。ESA 的诞生就是为了“充分利用最新硬件的全部潜力” 6。通过取消磁盘组并将数据服务“上移至堆栈顶部”,VMware 移除了这些历史遗留的限制。因此,vSAN 9.0 中的新功能,如全局去重,并非简单的附加功能,而是得益于 ESA 架构所赋予的自由度和效率才得以实现。
1.2 全局去重:空间效率的新范式
VCF 9.0 为 vSAN ESA 引入了基于软件的全局去重功能,旨在将存储占用空间减少高达 8 倍,同时保持极低的 CPU 影响 3。这项功能在根本上区别于 vSAN OSA 中的去重机制。
去重域 (Deduplication Domain):OSA 的去重范围局限于主机内的单个磁盘组。而 ESA 的全局去重域则扩展至整个集群,这极大地增加了发现和消除重复 4KB 数据块的概率 10。
处理模型 (Processing Model):OSA 在数据从缓存层下刷到容量层时执行内联 (inline) 去重,这可能会影响虚拟机的延迟 12。相比之下,ESA 的全局去重是一种
后处理 (post-process) 活动。它在数据被持久化并“冷却”后,利用空闲的 CPU 周期在后台伺机运行 5。
下面的流程图比较了两种架构的去重工作流:
值得注意的是,全局去重功能目前处于“有限可用 (limited availability)”状态,需要通过 RPQ (Request for Price Quotation/Qualification) 流程申请 3。这一细节至关重要。一个被宣传为 VCF 9.0 核心优势的功能,同时又被描述为“有限可用”,这表明 Broadcom 在推广此功能时持谨慎态度。这可能是为了在更广泛的真实工作负载中收集其有效性数据,确保支持团队准备就绪,或是为了管理对这一复杂新数据服务的市场预期。对于解决方案架构师而言,这是一个需要进一步调查的信号。这意味着客户不能理所当然地认为该功能开箱即用。在将全局去重的空间节省效益纳入任何 TCO 模型或架构设计之前,必须与 Broadcom 客户团队直接沟通,以确认其可用性和支持情况。
1.3 针对现代工作负载的性能与可扩展性
基准测试显示,vSAN ESA 每节点可提供高达 300,000 IOPS,并保持一致的亚毫秒级延迟,专为要求严苛的 AI 工作负载而设计 5。真实世界的对比测试表明,在应用级 IOPS 方面,ESA 的性能比领先的传统存储阵列高出 20%,在综合 IOPS 方面高出 70%,并且在故障场景下的延迟降低了 61% 14。
为了进一步提升性能,VCF 9.0 为vSAN 存储集群(即之前的 vSAN Max 架构)引入了网络流量分离 (Network Traffic Separation) 功能。此功能可将性能提升高达 25% 5。它允许管理员为以下两种流量类型定义独立的 VMkernel 端口和网络:
客户端流量 (Client Traffic):从使用 vSAN 数据存储的 vSphere 计算集群发出的“南北向”流量。
vSAN 后端流量 (vSAN Backend Traffic):vSAN 存储集群节点之间用于复制、重新同步和再平衡的“东西向”流量 16。
下图演示了 vSAN 存储集群中的流量分离模型:
流量分离是专为 vSAN 的存算分离模型设计的,而非标准 HCI 架构。
这反映了 VMware 的一项战略决策,即提升其分解式存储产品与传统 SAN 的竞争力。分解式存储(如传统 SAN)在计算和存储之间固有地引入了网络延迟,这是同地部署的 HCI 所没有的。对于分解式 vSAN 集群而言,主要的性能瓶颈是网络争用,特别是 vSAN 内部操作所需的高带宽东西向流量 16。通过允许将这种“后端”流量隔离到专用的高速网络(例如 100GbE),同时让客户端流量使用不同的、可能规格较低的网络,VMware 直接缓解了分解式架构的主要性能短板 16。此功能使 vSAN 存储集群成为传统中高端阵列更具可行性和性能优势的替代方案,同时通过流量隔离实现了更规范、更具成本效益的网络设计并提升了安全性。
1.4 增强的数据保护与运维
VCF 9.0 利用 ESA 的高性能快照能力,通过原生的 vSAN 到 vSAN 深度快照复制增强了灾难恢复能力 13。这使得集群间的复制 RPO (恢复点目标) 可低至一分钟 13。
此功能已与 VMware Live Recovery (VLR) 集成,取代了独立的 vSAN 数据保护设备 13。对于延伸集群,新增的“站点维护模式 (Site Maintenance Mode)”允许一次性将整个站点置于维护模式,极大地简化了运维,是对以往逐台主机操作模式的重大改进 13。
然而,将 vSAN 复制功能集成到需授权的 VMware Live Recovery (VLR) 产品中,具有显著的 TCO (总拥有成本) 影响。一项强大的原生复制功能被引入,但有用户评论指出,该功能现在是付费附加组件 (VLR) 的一部分,而他们曾希望它能成为核心 vSAN 功能以替代现有的 SAN 复制 13。这表明在 Broadcom 的领导下,VMware 的产品打包和授权策略发生了转变。一些以往可能包含在基础授权中的核心基础架构功能,现在正通过更高级别的套件或附加组件进行商业化。因此,尽管技术上十分出色,但该功能的商业价值现在与额外的授权成本挂钩。客户在利用原生 vSAN 到 vSAN 复制功能时,需要为 VCF 额外购买 VMware Live Recovery 附加组件的授权,这必须在预算规划中予以考虑。
1.5 vSAN ESA 与 vSAN OSA 架构对比
下表总结了两种 vSAN 架构之间的根本性差异,为规划新部署或考虑迁移的架构师提供了清晰的参考。
第二部分:解读 ESXi 中的 NVMe 内存分层2.1 “为何如此”:应对内存成本与密度的挑战DRAM (动态随机存取存储器) 可占服务器成本高达 50%,且随着内存密度的增加,这一比例还会上升 18。这导致了“内存墙”问题和“搁浅内存 (stranded memory)”现象,即主机虽有可用的 CPU 核心,却因内存不足而无法承载更多虚拟机 18。
VMware 在 ESXi 中引入的“高级内存分层 (Advanced Memory Tiering)”是一项与虚拟机管理程序深度集成的功能,它利用商用 NVMe SSD 作为第二层、速度较慢但成本效益更高的“内存”层 2。据称,这可将内存和服务器的总拥有成本降低 38% 2。
此功能是对一个经济问题而非纯技术问题的务实回应。它旨在最大化现有和新增硬件投资的价值,而无需对服务器架构进行革命性的改变。客户购买了高核心数的服务器,但用高容量 DRAM 插满所有 DIMM 插槽的成本令人望而却步 22。这导致 CPU 利用率低下,在按核心授权的模式下尤其低效。VMware 没有等待像 CXL 这样的新硬件标准成为主流,而是提供了一个基于软件的解决方案,该方案在现有的、配备标准 NVMe 驱动器的服务器上即可运行 22。因此,NVMe 内存分层是一项战略性功能,旨在降低实现更高虚拟机密度和更佳 CPU 利用率的门槛,从而直接改善 VCF 部署的 TCO。其核心价值主张在于经济优化。
2.2 技术实现:VMware 如何进行内存分层该功能的核心机制是智能且主动地将“冷”或不活跃的内存页从高速的 DRAM (Tier 0) 迁移到较慢的 NVMe 层 (Tier 1),同时向虚拟机呈现一个统一的内存地址空间 15。默认的 DRAM:NVMe 比例为 1:1,可有效地将主机的内存容量翻倍,并可根据特定工作负载(如 VDI)的需求定制高达 1:4 的比例 21。
虽然精确的算法是专有的,但其机制可以从 vSphere 既有的内存管理原则和现有数据中推断出来:
冷页识别 (Cold Page Identification):ESXi 长期以来一直使用各种技术来监控内存活动,例如通过采样来确定哪些页面正在被频繁读写 24。评估是否适合启用分层的关键指标是 “活跃内存 (active memory)” 。该功能最适用于 已分配 内存高但 活跃 内存低 的环境(最佳点是活跃内存低于 DRAM 总量的 50%)21。虚拟机管理程序的内存管理子系统会持续监控页面访问。在一段时间内未被访问的页面被标记为“冷”页面,成为迁移(降级)到 NVMe 层的候选对象 22。如果虚拟机需要访问一个已被降级的页面,会触发一个缺页中断 (page fault),虚拟机管理程序会透明地从 NVMe 检索该页面并将其提升回 DRAM,同时可能换出另一个冷页面。以下序列图展示了 NVMe 内存分层的页面迁移流程:
2.3 性能、集成与安全性该功能已与 DRS (Distributed Resource Scheduler) 和 vMotion 等核心 vSphere 服务完全集成并相互感知,确保在工作负载均衡和实时迁移期间能正确处理内存分层状态 21。性能测试显示,对于 VDI 和数据库工作负载,该功能可实现线性扩展和显著的吞吐量提升 22。
安全性方面,通过对分层内存页进行加密来解决,加密可在虚拟机或主机级别进行配置 21。通过在硬件 RAID 配置中使用两个或更多 NVMe 设备,也可以实现冗余 21。
与 DRS 的深度集成是该功能的“秘密武器”,也是其主要竞争优势。一个外部的或操作系统级别的分层解决方案对集群管理器 (DRS) 来说是不透明的。DRS 只能看到总内存量,无法做出智能决策。由于 VMware 的分层是虚拟机管理程序原生的,ESXi 内核可以直接将分层启发式信息提供给 DRS 23。这意味着 DRS 不仅能了解虚拟机使用了多少内存,还能了解内存的 质量(热 vs. 冷,DRAM vs. NVMe)。因此,它可以做出更智能的放置决策,例如,避免将一个活跃内存占用率非常高的虚拟机放置在一个已经严重依赖其 NVMe 层的主机上。这种紧密集成将内存分层从一个简单的容量扩展工具转变为一个动态的、集群感知的资源管理功能,确保了跨工作负载的公平性和一致性能 23,这是独立解决方案难以复制的。
第三部分:比较分析:VMware 内存分层 vs. CXL vs. MemVerge3.1 硬件中心化方法:Compute Express Link (CXL)CXL 是一种开放的行业标准,它是一种运行在 PCIe 物理层之上的缓存一致性互连协议 26。基于 PCIe 5.0 的 CXL 2.0 引入了交换功能,从而实现了内存池化和共享 26。
CXL 定义了三种协议:CXL.io (用于发现/初始化)、CXL.cache (用于加速器缓存主机内存) 和 CXL.mem (用于主机访问设备内存) 20。它使得内存可以从 CPU 中分解出来并进行池化,允许多个主机共享一个公共内存池,并可动态分配 18。这需要支持 CXL 的 CPU、主板和内存设备(例如内存扩展卡) 26。CXL 代表了对服务器架构的长期、根本性的重塑。它承诺实现真正的内存分解和组合性,但其发展依赖于硬件生态系统的更新换代,并面临着延迟和软件成熟度的挑战 26。
3.2 软件定义方法:MemVerge Memory MachineMemVerge 提供了一个软件平台,该平台可将 DRAM 和持久性内存(如 PMem 或 CXL 内存)虚拟化,创建一个统一的、分层的内存池,应用程序无需修改即可访问 31。
MemVerge 的软件在操作系统中运行,并智能地在不同内存层之间对热数据和温数据进行分层 31。其突出特点是“ZeroIO”内存快照,该功能可以在数秒内捕获和恢复数 TB 应用的状态,而无需对存储进行 I/O 操作。这对于需要快速恢复和克隆以进行开发/测试的长时间运行的有状态应用来说是理想选择 31。MemVerge 正在积极构建软件 (Memory Machine X) 来管理和编排基于 CXL 的内存池 33。MemVerge 是一种以应用为中心的软件定义覆盖层。它提供了 VMware 或 CXL 基础产品中所没有的高级数据服务(如快照),并可作为增值层运行在 CXL 等新型内存硬件之上。
3.3 三种技术对比框架下表是本次比较分析的核心,它通过多个技术和战略维度对这三种技术进行了结构化比较,旨在帮助读者理解每种技术的独特权衡和理想用例。
Dave's ponit从上述技术细节和访问流程来看,VMware 此处的内存分层本质上还是基于SSD的缓存机制,和CXL、MemVerge两者真实的内存扩展,是有差异的。VMware 基于冷页识别算法+资源层的管理调度,实现灵活的数据分层,从而提高应用的访问性能。
第四部分:总结与展望报告分析揭示了三种解决内存挑战的不同理念。
VMware 提供了一种务实的、以基础架构为中心的解决方案,现已可用。CXL 提供了一种根本性的、以硬件为中心的未来架构。MemVerge 则提供了一种专业的、以应用为中心的软件解决方案,可以运行在任何一种硬件之上。务实主义与完美主义的博弈
对于已经投资于 vSphere 生态系统的大多数企业而言,VMware 的 NVMe 分层是务实的选择。它利用现有的硬件范式,能够立即带来显著的 TCO 收益。而 CXL 是技术上更为优雅、更“完美”的内存分解解决方案,但其普及是一个与硬件更新周期相关的长期战略。
超融合存储的成熟
vSAN 从 OSA 到 ESA 的演进,特别是后处理全局去重和流量分离的引入,展示了一个清晰的学习和成熟周期。Broadcom 正在强化 vSAN,使其不仅能与其他 HCI 解决方案竞争,更能直接在性能、效率和运维模式上与传统的企业级存储阵列一较高下。
本地基础设施的“云化”
VCF 9.0 不仅仅是功能更新的集合。统一的控制台 2、原生的 VPC 37 和自助服务自动化 2 等特性,代表了其在私有数据中心内复制公有云运维模式的一致努力。这是对客户“将云视为一种运维模式,而非一个地点” 4 需求的直接战略回应,也是 Broadcom 赢得工作负载回迁市场的核心战略。
给解决方案架构师的战略建议:
对于存量 vSphere 环境: 积极试点 NVMe 内存分层。通过提高虚拟机密度和推迟硬件采购来降低 TCO 的潜力是巨大的。首要前提是识别出那些已分配内存高但活跃内存低的工作负载。对于新建私有云部署: 默认采用 vSAN ESA 进行设计。其相对于 OSA 的性能和效率增益是显著的。如果需要分解式架构,带有流量分离功能的 vSAN 存储集群现在是传统 SAN 的一个高度可信的替代方案。如果需要原生复制功能,务必将 VMware Live Recovery 等附加组件的授权成本计入预算。对于未来 AI/HPC 规划: 将 CXL 纳入未来 2-3 年的技术路线图。随着支持 CXL 2.0/3.0 的服务器平台成为主流,它将成为构建大型共享内存系统的标准。届时可评估像 MemVerge 这样的解决方案,作为这些未来 CXL 环境的软件管理层。对于特定应用需求: 如果您管理着关键的大规模内存数据库或其他有状态应用,且恢复时间是首要业务考量,那么应评估 MemVerge Memory Machine,因其独特的 ZeroIO 快照和恢复能力是 VCF 平台原生功能所不具备的。
上一条:vmware虚拟机怎么用教程
下一条:VMware虚拟机安装教程
品质保证
多年的生产力软件专家
专业实力
资深技术支持项目实施团队
安全无忧
多位认证安全工程师
多元服务
软件提供方案整合,项目咨询实施
购软平台-找企业级软件,上购软平台。平台提供更齐全的软件产品、更专业的技术服务,同时提供行业资讯、软件使用教程和技巧。购软平台打造企业级数字产品综合应用服务平台。用户体验和数字类产品的专业化服务是我们不断追求的目标。购软平台您身边的企业级数字产品优秀服务商。