일본 국립대학법인 전기통신대학교(UEC)에 위치한 “ELSA Physical AI Lab”은 생성형 AI와 로봇 기술(Physical AI)의 통합을 연구하는 기관입니다. 이 연구소의 핵심 연구는 사족 보행 로봇과 로봇의 손/팔에 대한 인지 모델 개발에 집중되어 있습니다. 따라서 고성능 시스템을 활용한 시뮬레이션과 실험 환경의 빈번한 전환은 필수적인 핵심 요소입니다.

Photo: Daisuke Ishizaka

배경 및 과제: 온프레미스 배포의 예산, 기술, 환경적 장벽

온프레미스 AI 연구개발을 추진하는 과정에서, ELSA 연구소 역시 기업들이 공통적으로 겪는 세 가지 주요 과제에 직면했습니다:

  • 하드웨어 비용 효율성: Llama 3.1 70B와 같은 대규모 모델이 연구의 핵심이 되면서, 고성능 AI를 구동하기 위해서는 막대한 VRAM이 필요합니다. 이로 인해 제한된 예산 내에서 기존 하드웨어로는 비용과 성능의 균형을 맞추기 어려운 문제가 발생합니다.
  • 소프트웨어 구성의 진입 장벽: AMD ROCm™ 소프트웨어 스택은 강력한 성능을 제공하지만, 저수준 환경 설정은 연구자들에게 여전히 높은 기술적 복잡성을 요구합니다.
  • 컴퓨팅 자원 낭비: 전문 GPU가 대용량 VRAM을 갖추고 있더라도, 효율적인 분할 및 관리 메커니즘이 없다면 단일 작업만 점유하게 되는 경우가 많아, 결과적으로 하드웨어 활용도가 낮아지는 문제가 발생합니다.

Photo: Daisuke Ishizaka

해결 방안 및 실증: AI-Stack과 AMD의 협력을 통한 고효율 연구개발 환경 구축

ELSA 연구소는 AMD Radeon™ AI PRO R9700(32GB GDDR6 VRAM 탑재)을 장착한 ELSA VELUGA G5-ND 고성능 워크스테이션을 도입하고, AI-Stack 컴퓨팅 자원 스케줄링 및 AI 인프라 관리 플랫폼을 통해 자원을 효율적으로 운영하고 있습니다:

  1. 컴퓨팅 자원의 단일 플랫폼 통합 관리: AI-Stack은 AMD R9700이 탑재된 ELSA VELUGA G5-ND 워크스테이션을 안정적으로 지원하며, 연구소는 플랫폼 상에서 직접 AMD 컴퓨팅 자원을 호출할 수 있습니다. 이를 통해 하위 드라이버나 소프트웨어 스택의 복잡한 설정을 별도로 처리할 필요가 없습니다.
  2. 정밀한 VRAM 자원 분할: 플랫폼에 내장된 자원 격리 기능을 활용하여 R9700의 32GB VRAM을 여러 개의 독립된 영역으로 정밀하게 분할할 수 있습니다. 이를 통해 하나의 워크스테이션에서도 동시에 여러 모델 실험을 수행할 수 있습니다.
  3. 실시간 환경 배포: AI-Stack의 컨테이너 기반 관리 메커니즘을 통해, 연구소는 수분 내에 AI 연구개발 환경을 구축할 수 있으며 다양한 모델 실험을 빠르게 실행할 수 있습니다. 이를 통해 로봇 인지 개발 과정에서 환경 설정으로 인한 지연 없이 “도입 즉시 개발”이 가능해집니다.

Photo: Daisuke Ishizaka

구체적 성과: Llama 3.1부터 로봇 구현까지의 매끄러운 연결

ELSA 물리 AI 사업부장 오카다 씨는 다음과 같이 말했습니다: “AI-Stack을 통해 단일 워크스테이션에서 여러 모델 실험을 동시에 실행할 수 있게 되었고, 연구 효율이 크게 향상되었습니다.”

AI-Stack의 스케줄링 기술을 바탕으로, 연구소는 고성능 하드웨어를 실질적인 연구 성과로 전환하는 데 성공했습니다. 또한 데이터 보안과 예산을 효과적으로 관리하면서, 이론에서 실제 장비 검증까지의 주기를 크게 단축할 수 있었습니다.

결론

이번 ELSA 연구소와의 성공 사례는 중요한 점을 보여줍니다. 기업이 더 이상 하위 하드웨어 환경에 대한 부담을 갖지 않게 될 때, AI-Stack의 자원 격리 및 스케줄링 기술을 통해 온프레미스 환경에서도 전문 GPU의 잠재력을 안정적이고 효율적으로 최대한 활용할 수 있습니다. 이는 하드웨어 투자를 정밀하게 연구개발 성과로 전환하는 것을 의미합니다.

【관련 기사】

AI 전문가에게 묻다: “온프레미스 AI를 운영하려면 어떤 구성이 필요한가?”
제003권: ELSA 물리 AI 연구소의 시각에서 본 Physical AI 연구개발 현황