字節(jié)跳動(dòng)開(kāi)源 Godel-Rescheduler,號(hào)稱適用于云原生系統(tǒng)的全局最優(yōu)重調(diào)度框架
IT之家 4 月 18 日消息,在云原生調(diào)度中,一次調(diào)度往往無(wú)法解決所有問(wèn)題,需要配合重調(diào)度來(lái)優(yōu)化資源分配和任務(wù)擺放。今日,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)宣布開(kāi)源 Godel-Rescheduler,號(hào)稱是“適用于云原生系統(tǒng)的全局最優(yōu)重調(diào)度框架”。
據(jù)字節(jié)官方介紹,這是一個(gè)基于全局最優(yōu)調(diào)度策略的重調(diào)度框架。它不僅能識(shí)別集群中的異常節(jié)點(diǎn)和任務(wù),還能智能推薦任務(wù)到最合適的位置,并通過(guò)圖算法生成詳細(xì)的遷移步驟,確保集群的整體穩(wěn)定性,真正實(shí)現(xiàn)全局最優(yōu)調(diào)度。
Godel-Rescheduler 由兩個(gè)核心模塊組成:Policy Manager 和 Movement Manager。其中,Policy Manager 負(fù)責(zé)輸出重調(diào)度決策,而 Movement Manager 則負(fù)責(zé)拆解并執(zhí)行這些決策。整個(gè)框架的目標(biāo)是通過(guò)重調(diào)度,使集群朝向全局最優(yōu)狀態(tài)發(fā)展。

目前字節(jié)跳動(dòng)已經(jīng)成功將 Godel-Rescheduler 應(yīng)用到多個(gè)內(nèi)部項(xiàng)目中,支持多種重調(diào)度策略的協(xié)同工作。例如:
合并部署重調(diào)度:優(yōu)化上下游應(yīng)用實(shí)例在相同節(jié)點(diǎn)上的調(diào)度。
負(fù)載均衡重調(diào)度:在負(fù)載、內(nèi)存帶寬、網(wǎng)絡(luò)帶寬等方面進(jìn)行優(yōu)化。
碎片整理重調(diào)度:有效減少 CPU、GPU 等資源的碎片率等。
在實(shí)際應(yīng)用中,Godel-Rescheduler 已幫助字節(jié)跳動(dòng)的數(shù)萬(wàn)卡 GPU 集群將碎片率控制在 5% 以下,同時(shí)在大規(guī)模混合部署集群中,熱點(diǎn)節(jié)點(diǎn)比例控制在 0.1% 以下。
IT之家附 Godel ReScheduler 項(xiàng)目地址:
https://github.com/kubewharf/godel-rescheduler
來(lái)源:IT之家