在這個資料密集計算的時代,人工智慧(AI)正以前所未有的速度改變著各個產業。從製造業的生產線、醫院的診斷室、金融市場的風險評估到科學研究的突破,AI 都扮演著越來越重要的角色。然而,要充分發揮 AI 的無限潛力,不僅需要先進的演算法,更需要一個強大的軟體平台,將基礎架構、開發和管理無縫整合。
數位無限長期致力於 AI 基礎架構管理軟體的研發。在 AI 浪潮興起前,自 2017 年起即以 AI-Stack 率先進軍 AI GPU 資源調度及 AI 基礎設施管理平台領域。2019 年,更成為 NVIDIA 新創鏈結計畫 (Inception Program) 的全球合作夥伴成員,並榮獲 NVIDIA 認證解決方案顧問 (Solution Advisor – Preferred Level) 資格,成為台灣 AI 基礎設施解決方案軟體領域中唯一獲此殊榮的企業。
AI-Stack 是一個專為企業級 AI 應用打造的完整平台,提供高效開發環境、精確的資源管理,以及穩定的基礎設施。本文將深入剖析 AI-Stack 的架構,帶領您全面了解其核心功能和優勢。
AI-Stack架構總覽
- 開發與生態層(Dev & Ecosystem Layer):以 Kubernetes 與 Docker 為基礎, 提供高效直觀的開發環境,整合主流 AI 框架和工具,加速 AI 應用開發。
- 控制層(Control Plane): 提供集中的視覺化管理和監控平台,最大化 GPU 利用率,並提供量身打造的 AI 運算環境。
- 實體叢集層(Infrastructure Cluster):透過獨家的晶片及儲存裝置管理技術,為 AI 基礎設施的管理提和運營供全面支援,最大化利用 GPU 算力。
接下來,我們將逐一深入介紹這三層架構。
第一層:開發與生態層(Dev & Ecosystem Layer)- 加速AI開發的引擎
想讓 AI 應用開發更快速、更簡單?AI-Stack 的「開發與生態層」為您打造最佳的 AI 開發體驗!此層著重於提供開發者高效率、直觀且易於使用的環境,加速 AI 專案從概念到實踐的過程。
核心亮點:
- 高效直觀的開發環境:
- AI-Stack 基於 Kubernetes 和 Docker 等容器化技術,提供便捷的開發體驗,僅需簡單的操作,即可在一分鐘內快速建立 AI 環境,大幅節省部署所需的時間,讓您立即投入開發工作。
- 高擴展性的AI開發平台:
- AI-Stack 整合 TensorFlow、PyTorch、LLaMA、Falcon 等主流 AI 框架,提供全面且完整的機器學習解決方案。
- 工作流程自動化:
- AI-Stack 透過自動化訓練排程機制,提升您的開發效率,大幅簡化模型訓練和部署成本,得以更妥善的運用資源。
值得一提的是,數位發展部宣布的「數位產業跨域軟體基盤計數位服務躍升計畫」,其核心算力資源管理即由數位無限承攬。AI-Stack 平台快速部署,能輕鬆建立Kubernetes環境,開發者可遠端控制算力資源並持續進行 AI 模型開發,完美貼合該計畫及新創企業的需求,成為推動台灣 AI 發展的重要力量。
第二層:控制層(Control Plane)- 掌控AI運算的樞紐
AI-Stack 的「控制層」提供 AI 運算資源管理,透過精準調配與優化,最大化運算資源效益,加速 AI 應用開發。
核心功能:
- 集中的管理和監控平台:
- AI-Stack 將所有計算資源與機器學習工作負載整合於單一平台控制,大幅簡化管理複雜度。
- 提供直觀的視覺化控制介面,即使是新手也能快速上手,降低學習門檻。
- 支援多使用者和多團隊同時使用,並透過以角色為基礎的存取控制 (RBAC) 確保資料和資源的安全性,保障企業資訊安全。
- 極大化 GPU 利用率:
- AI-Stack 提供多種動態調度策略,可配合不同資源需求進行調整,透過一鍵調度 GPU 資源的功能,讓您靈活自動排程和執行工作負載,提升資源使用效率。
- 量身打造的 AI 運算環境:
- 透過建立自定義鏡像,使用者可精準打造符合工作需求的開發環境,確保使用一致的軟體和設定,大幅提升供公作效率。
- 使用者可批次建立和管理多個任務,簡化工作流程,提升工作效率。
AI-Stack 在醫療等高要求的應用場景中展現了卓越效能。花蓮慈濟醫院導入 AI-Stack,用於推動 AI 輔助醫療診斷和研究,包含心臟內科、腸胃內科、影像醫學部及胸腔內科等多科別的應用。AI-Stack 有效解決了慈濟醫院以往在 GPU 資源分配和使用效率方面的挑戰,透過集中管理、彈性調度和資源優化,大幅提升了研究和臨床應用的效率,並促進了跨領域合作。這充分展現了 AI-Stack 在資源管理和使用者體驗方面的優勢。
第三層:實體叢集層(Infrastructure Cluster)- 強大的AI算力基石
AI-Stack 的「實體叢集層」為 AI 基礎設施的堅實基礎。透過獨家的晶片及儲存裝置管理技術,我們能更有效地挖掘硬體潛力,加速 AI 發展。
核心優勢:
- 全方位優化硬體資源:
- 穩定可靠性:
- AI-Stack 具備快速錯誤回報機制,有助使用者即時視察抓錯,從容應對突發狀況,降低系統風險。
- 提供彈性擴展能力,可輕鬆應對不斷變化或高峰期的運算數據量需求,維持系統穩定運行。
- 高效儲存系統:
- 支援 BeeGFS、Ceph、Lustre、NFS、CIFS 等多種高效能儲存系統,滿足不同應用對於儲存效能和容量的需求。
AI-Stack 不僅在企業界廣受好評,更在學術研究領域扮演重要角色。國立臺北科技大學導入 AI-Stack 平台後,有效地解決了以往 GPU 資源分配不均、排隊時間過長等問題,大幅提升了研究效率。透過 AI-Stack 的集中管理介面,北科大能夠更有效地分割並分配 GPU 資源給不同的研究團隊和學生,確保資源的公平使用,並最大化資源利用率。這充分展現了 AI-Stack 在資源分配管理、完善使用者體驗,以及促進學術研究方面的優勢。
結語
傳統的 AI 開發和部署流程往往充滿挑戰,例如:環境建置複雜、算力資源分配不均、團隊協作困難等。AI-Stack 正是為了解決這些痛點而生,提供了一個全面性的解決方案。不僅提供開發環境,更涵蓋了資源管理和 AI 基礎設施建設,AI-Stack 將所有的元素整合在一個平台上,讓企業能更專注於 AI 應用的創新和發展。
無論您是正在尋找一個易於上手的 AI 開發平台,還是需要一個強大的基礎設施來支持大規模的 AI 運算,AI-Stack 都能滿足您的需求。我們相信,透過 AI-Stack,企業可以更有效地利用 AI 技術,推動業務成長和創新。
我們誠摯地邀請您體驗 AI-Stack 的功能。立即聯繫我們,親身感受 AI-Stack 如何簡化您的 AI 工作流程,並釋放 AI 的無限潛力!