이 데이터 집약적 컴퓨팅 시대에 인공지능(AI)은 전례 없는 속도로 각 산업을 변화시키고 있습니다. 제조업의 생산 라인, 병원의 진단실, 금융 시장의 위험 평가부터 과학 연구의 돌파구에 이르기까지 AI는 점점 더 중요한 역할을 수행하고 있습니다. 그러나 AI의 무한한 잠재력을 최대한 발휘하려면 첨단 알고리즘뿐만 아니라 인프라, 개발 및 관리를 원활하게 통합하는 강력한 소프트웨어 플랫폼이 필요합니다.

인피니틱스는 AI 인프라 관리 소프트웨어 개발에 지속적으로 매진해 왔습니다. AI 붐이 일기 전인 2017년부터 AI-Stack을 통해 AI GPU 자원 스케줄링 및 AI 인프라 관리 플랫폼 분야에 선제적으로 진출했습니다. 2019년에는 NVIDIA 신생 기업 연계 프로그램(Inception Program)의 글로벌 파트너 멤버가 되었으며, NVIDIA 인증 솔루션 어드바이저(Solution Advisor – Preferred Level) 자격을 획득하여 대만 AI 인프라 솔루션 소프트웨어 분야에서 유일하게 이 영예를 안은 기업이 되었습니다.

AI-Stack은 기업용 AI 애플리케이션을 위해 설계된 통합 플랫폼으로, 효율적인 개발 환경, 정밀한 자원 관리, 안정적인 인프라를 제공합니다. 본 글에서는 AI-Stack의 아키텍처를 심층 분석하여 핵심 기능과 장점을 종합적으로 살펴보겠습니다.

AI-Stack 아키텍처 개요

  • 개발 및 생태계 계층(Dev & Ecosystem Layer): Kubernetes와 Docker를 기반으로 효율적이고 직관적인 개발 환경을 제공하며, 주요 AI 프레임워크 및 도구를 통합하여 AI 애플리케이션 개발을 가속합니다.
  • 제어 계층(Control Plane): 중앙집중식 시각화 관리 및 모니터링 플랫폼을 제공하여 GPU 활용도를 극대화하고 맞춤형 AI 컴퓨팅 환경을 제공합니다.
  • 인프라스트럭처 클러스터 계층(Infrastructure Cluster): 독자적인 칩 및 스토리지 장치 관리 기술을 통해 AI 인프라 관리 및 운영에 대한 포괄적인 지원을 제공하며, GPU 컴퓨팅 성능을 극대화합니다.

이제 이 세 계층 아키텍처를 차례로 자세히 살펴보겠습니다.

첫 번째 계층: 개발 및 생태계 계층(Dev & Ecosystem Layer) – AI 개발을 가속하는 엔진

AI 애플리케이션 개발을 더 빠르고 쉽게 만들고 싶으신가요? AI-Stack의 ‘개발 및 생태계 계층’이 최적의 AI 개발 경험을 제공합니다! 이 계층은 개발자에게 효율적이고 직관적이며 사용하기 쉬운 환경을 제공하여 AI 프로젝트가 개념에서 실행으로 빠르게 전환되도록 지원합니다.

핵심 특징:

  • 효율적이고 직관적인 개발 환경:
    • AI-Stack은 Kubernetes 및 Docker와 같은 컨테이너 기술을 기반으로 편리한 개발 경험을 제공합니다. 간단한 조작만으로 1분 이내에 AI 환경을 신속하게 구축할 수 있어 배포에 소요되는 시간을 크게 절약하고 즉시 개발 작업에 착수할 수 있습니다.
  • 고확장성 AI 개발 플랫폼:
    • AI-Stack은 TensorFlow, PyTorch, LLaMA, Falcon 등 주요 AI 프레임워크를 통합하여 포괄적이고 완성도 높은 머신러닝 솔루션을 제공합니다.
  • 워크플로우 자동화:
    • AI-Stack은 자동화된 훈련 스케줄링 메커니즘을 통해 개발 효율성을 높이고, 모델 훈련 및 배포 비용을 대폭 간소화하여 자원을 보다 효율적으로 활용할 수 있게 합니다.

AI-Stack은 의료 등 높은 요구 사항이 있는 응용 분야에서 탁월한 성능을 발휘했습니다. 화롄 자애(자제)병원(慈濟醫院)은 AI-Stack을 도입하여 AI 보조 의료 진단 및 연구를 추진하고 있으며, 심장내과, 위장내과, 영상의학과, 흉부내과 등 다학제적 분야에 적용하고 있습니다. AI-Stack은 자비병원에서 기존에 겪었던 GPU 자원 배분 및 사용 효율성 문제를 효과적으로 해결했습니다. 중앙 집중식 관리, 유연한 자원 배분, 자원 최적화를 통해 연구 및 임상 응용 효율성을 크게 향상시켰으며, 학제 간 협력을 촉진했습니다. 이는 AI-Stack의 자원 관리 및 사용자 경험 측면에서의 우위를 충분히 입증합니다.

제3층: 인프라스트럭처 클러스터(Infrastructure Cluster) – 강력한 AI 컴퓨팅 파워의 기반

AI-Stack의 ‘실체 클러스터 계층’은 AI 인프라의 견고한 기반입니다. 독자적인 칩 및 저장장치 관리 기술을 통해 하드웨어 잠재력을 더욱 효과적으로 발굴하여 AI 발전을 가속합니다.

핵심 강점:

  • 전방위적 하드웨어 자원 최적화:
    • AI-Stack의 독보적인 GPU 분할 기술, 통합 기술 및 크로스 노드 컴퓨팅은 NVIDIAAMD의 다양한 GPU 시리즈를 지원하여 유연한 하드웨어 선택을 제공합니다. GPU 자원을 더 유연하게 활용하고 운영 비용을 절감할 수 있습니다.
    • 내장형 AI 워크로드 스케줄러는 컨테이너화된 오케스트레이션을 지원하여 실제 워크로드에 따라 필요한 컨테이너를 신속히 생성함으로써 배포 효율성을 높이고 각 작업이 필요한 컴퓨팅 자원을 확보하도록 보장합니다.
  • 안정성과 신뢰성:
    • AI-Stack은 신속한 오류 보고 메커니즘을 갖추어 사용자가 실시간으로 오류를 감지하고 대응할 수 있도록 하여 갑작스러운 상황에 유연하게 대처하고 시스템 위험을 낮춥니다.
    • 탄력적인 확장 기능을 제공하여 변화하는 또는 피크 시간대의 컴퓨팅 데이터량 수요에 쉽게 대응하며 시스템 안정적 운영을 유지합니다.
  • 고효율 스토리지 시스템:
    • BeeGFS, Ceph, Lustre, NFS, CIFS 등 다양한 고성능 스토리지 시스템을 지원하여 다양한 애플리케이션의 스토리지 성능 및 용량 요구를 충족시킵니다.

AI-Stack은 기업계에서 호평을 받는 것은 물론, 학술 연구 분야에서도 중요한 역할을 수행하고 있습니다. 국립타이베이과학기술대학교는 AI-Stack 플랫폼을 도입한 후, 기존 GPU 자원 배분 불균형 및 대기 시간 과다 등의 문제를 효과적으로 해결하여 연구 효율을 크게 향상시켰습니다. AI-Stack의 중앙 관리 인터페이스를 통해 타이베이과기대는 다양한 연구팀과 학생들에게 GPU 자원을 보다 효율적으로 분할 및 할당할 수 있게 되었으며, 자원의 공정한 사용을 보장하고 자원 활용률을 극대화했습니다. 이는 AI-Stack이 자원 배분 관리, 사용자 경험 개선, 학술 연구 촉진 측면에서 지닌 장점을 충분히 입증하는 사례입니다.

결론

전통적인 AI 개발 및 배포 프로세스는 종종 복잡한 환경 구축, 컴퓨팅 자원 불균형, 팀 협업 어려움 등 다양한 도전 과제에 직면합니다. AI-Stack은 바로 이러한 문제점을 해결하기 위해 탄생한 포괄적인 솔루션입니다. 개발 환경 제공뿐만 아니라 자원 관리와 AI 인프라 구축까지 아우르며, 모든 요소를 단일 플랫폼에 통합하여 기업이 AI 애플리케이션의 혁신과 발전에 더욱 집중할 수 있도록 합니다.

사용하기 쉬운 AI 개발 플랫폼을 찾고 계시든, 대규모 AI 컴퓨팅을 지원할 강력한 인프라가 필요하시든, AI-Stack은 여러분의 요구를 충족시킬 수 있습니다. AI-Stack을 통해 기업이 AI 기술을 보다 효과적으로 활용하여 비즈니스 성장과 혁신을 주도할 수 있다고 믿습니다.

AI-Stack의 기능을 직접 경험해 보시길 진심으로 초대합니다. 지금 바로 문의하시어 AI-Stack이 어떻게 AI 워크플로우를 간소화하고 AI의 무한한 잠재력을 발휘하게 하는지 직접 확인해 보십시오!