腾讯服务器平台架构师精彩分享天蝎3.0整机设计方向

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。
前言
4月14日,2016 ODCC技术分享和成果宣贯会在深圳召开。开放数据中心委员会的技术专家分享了各自研究领域的最新进展及部分已公开成果。ODCC服务器工作组项目经理、腾讯服务器平台中心架构师王伟,介绍了天蝎3.0在整机设计优化方面的思考,并向行业征求意见。

和小编一起围观腾讯服务器平台中心架构师 王伟的精彩发言吧
ODCC服务器工作组项目经理、腾讯服务器平台中心架构师 王伟
大家好!去年11月份ODCC峰会上我们给大家展示了对天蝎3.0的展望。又过了一个季度,在这里给大家通报一下天蝎3.0最近研究的成果和进展,以及我们在一些方面优化的诉求,也征求大家的意见。

天蝎整机柜的演进
天蝎1.0
架构优化,解耦服务器的风扇和电源,实现共享风扇、共享电源,提高资源利用率,降低TCO 20%;
天蝎2.0
硬件标准化,从整机结构,到节点形态,到背板接口,到管理总线,全面细化并形成标准;
天蝎3.0
架构优化,进一步对服务器架构进行重构,把服务器内部的节点、部件、CPU内存能够做进一步池化,进一步提高资源利用率,降低TCO的同时,也能够在服务器配置的灵活性和弹性交付上带来收益。

天蝎3.0项目并不是技术宅为了做技术的探索而发起的项目,确确实实是因为在实际使用过程中发现了传统服务器架构的痛点,在资源利用率、弹性交付效率等方面存在不足,才发起的技术研究项目。

服务器资源利用率不足的问题,已经在多种服务器上出现。譬如,存储类应用,温存储和冷存储的服务器中的计算能力是过剩的,这造成了CPU/MEM/网络的利用率偏低,从而造成了资源浪费。还有,虚拟化类应用,服务器上的磁盘利用率是偏低的,因此虚拟化/云应用转向使用共享存储来提高存储利用率,已是趋势。

弹性交付效率的问题,目前已经在公有云的应用中凸显,多样化客户对虚拟机的配置存在极大差异,造成物理服务器的配置也存在较大差异,传统的服务器定制化流程,往往需要3-6个月才能完成一款新型服务器的开发和测评,但是公有云客户根本等不了这么久。

自2015年天蝎3.0项目启动, 经过数轮讨论和评估,确定了天蝎3.0项目需要聚焦解决的两大技术挑战:互连和管理。从去年到现在重点是互连的Fabric研究,因为将服务器的IO等部件解耦,形成共享资源池,必然会涉及到这些资源池和CPU之间的互连互通、访问时延、访问带宽等问题。为此产生的资源池直接的互连网络,我们称之为数据平面Fabric,行业上习惯上称之为东西向流量的交换。这个Fabric应该怎么选择什么样的技术?其实去年已经有一些初步的设想,并达成一些共识,选择锁定在使用PCIE、SAS和以太网。同时,天蝎3.0也提出数据平面网络和管理平面网络要作分离,而且在数据平面的网络上也是分两级,跨柜和柜内的交换网络可以采用不同的协议。

这一季度天蝎3.0项目在三种Fabric的研究上也产生了一些不同程度的进度和进展。今年Q1基于SAS互连的天蝎整机柜原形已经有样机,面向存储类应用场景。通过SAS的Fabric可以把SATA硬盘、SAS硬盘、SATA SSD形成共享存储资源池,同时将存储机头(CPU+内存+网卡)形成计算资源池。按照实际的工作负载可以选择不同的计算、存储的配比。对于冷存储,可以选择小的计算节点资源池,配置大量的存储资源池。这样就可以节约计算资源,包括CPU、内存和网卡的成本,同时还可以减少很多功耗,整体上可以大幅降低服务器的TCO。今年,BAT三家都会对此开展应用场景评估和测试。

基于PCIE互连的天蝎3.0原型机,近期也有了新的进展,新一轮样机已经完成,基于PCIe互连可以实现NVMe SSD、SAS/SATA 硬盘、SATA SSD,以及更多IO资源的共享。基于以太网互连的方案,目前还在评估中。

另外,Q1天蝎3.0还重点评估了另外一个内容:线缆连接方式。设想一下,天蝎3.0增加了一个数据平面Fabric后,势必增加很多线缆。每一个计算节点需要1-2根网线,用于南北向流量的网络;还需要1-2个cable用于数据平面的连接(东西向流量);还需要1根管理网络的网线,合计3-5根cable。如果采用1U2节点的46U整机柜配置,那就会有240~400根cable,可以想象一下你面向有这么一台整机柜,你看到它时,第一印象应该是“谁家的毛线球放这儿了?”而且,面对这样一台全是线缆的整机柜服务器,后期维护运营时,是非常困难的。

因此,Q1天蝎3.0项目组开始评估是否可以采用后出线方案。后出线的应用,在行业中已经不是新鲜事物,传统电信设备都是后出线,前维护的;微软的OCS也是后出线的;今年OCP大会上也展出了TOCP的整机柜,也是后出线的。因此,面对未来更高密度的整机柜,为了简化运营,后出线是一个很好的技术方向。工作组讨论了多种方案,有两个相对较为可行的方案,在这里跟大家分享一下:
方案一
cable Wall。利用节点和风扇墙之间的间隙,布置一个横T型的连接器带线缆的Cable Wall。这个方案的优点是,整个机柜的线缆埋藏在机柜内部,前后面板都非常整洁,运营维护非常容易。缺点是Cable Wall的连接密度较低,可以覆盖的高度只有半柜高。
方案二
双RBP,后出线。简单来讲,就是在机柜后面再增加一组RBP,两组RBP最大可以实现满柜80个节点的出现和互连,而且为每个节点预留了足够大的网络带宽,所有的线缆在后面布局。这个方案的优点是,配置灵活,如果1U只有1个节点,只需要配置1组RBP,而且每个节点的可用互连带宽非常大。另外,通过RBP后出线,还有一个最大的好处,就是未来只需要更换RBP,就可以支持光互联。当然,这个方案需要对天蝎整机柜的结构进行重新优化,包括压缩风扇框宽度,重新设计节点与RBP的互连方式等。

海量服务器运营,最注重的是自动化能力和简易维护。因此天蝎3.0在服务器架构重构时,不仅仅要考虑如何在技术上实现资源池化的功能,更需要考虑如何简化运营,提高维护效率。为此,我们面向所有ODCC的会员和非会员单位征求意见,主要是四方面:
关于以太网池化的方案,以太网形成池化未来有哪些应用场景,NVME资源池、GPU资源池等,通过以太网做Fabric有哪些比较优秀的解决方案,大家比较熟悉或者某些公司做研究,都非常欢迎大家对天蝎组织进行贡献。即便方案不成熟,但是理念非常好的话,也是非常欢迎大家一起探讨
关于后出线整机结构的优化,我们会评估后出线对天蝎未来的发展是不是应该选择的方向。这里包括TBP和RBP连接的器怎么放,非常欢迎连接器厂商和我们联系,提出你们在连接器上的优势然后供我们选择
关于风扇框结构压缩的方案,压缩之后可能有新的问题,对于风扇和结构的部件厂商或者是服务器厂商也欢迎与我们联系
关于Fabric,天蝎提出有3种Fabric的选择,作为连接器厂会怎么选,这是很好的问题。我们会选择同一种连接器还是多种连接器,没有形成定论。我们目前看到比较成熟或者正在标准化的连接器有很多,是用mini SAS HD,还是用QSFP+、Qculink,我们希望连接器厂商和我们联系,看你们在标准和非标准的方面有没有研究,我们需要的是密度更高。如果采用后出线,RBP面积有限,能出的线量很少。希望大家后续有相关的一些方案与我们ODCC服务器工作组联系
欢迎更多同仁一起交流探讨!
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待!
注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;
注2:本文图片部分来至互联网,如涉及相关版权问题,请联系judithliu@tencent.com
公众号ID:鹅厂网事
请长按“图标”关注我们吧!
相关文章
相关标签/搜索