Hot Chips 23의 Google 기조연설 차트 ML 드라이버

존 러셀

2023년 8월 31일

Google 과학자 Jeff Dean과 Amin Vahdat는 이번 주 공동 Hot Chips 23 오프닝 기조 연설에서 주요 ML 하드웨어 및 소프트웨어 디자인 트렌드에 대한 흥미로운 투어를 제공했습니다. 두 사람은 무엇보다도 밀도에 대한 희박성 증가, 적응형 통신에 대한 노력, 더 나은 전력 소비 및 시스템 성능 지표 개발, AI 기반 가속 칩 설계 등을 다루었습니다.

Dean과 Vahdat는 철저하게 보호되는 Google 뉴스가 공개되지 않았지만 돌을 거의 남기지 않았습니다. 후자 중 일부는 오늘 샌프란시스코에서 시작되는 Google Cloud Next 23 이벤트에서 나타날 것으로 보입니다. 그럼에도 불구하고 Dean과 Vahdat는 급증하는 모델 크기(매개변수 수)가 인프라 용량을 초과하는 등 다양한 요인으로 인해 ML 컴퓨팅에 대한 수요가 증가함에 따라 진행 속도를 높여야 한다는 점을 강조했습니다.

Dean은 “분명히 최근 몇 년 동안 머신러닝은 컴퓨터로 가능하다고 생각하는 것에 대한 우리의 기대를 변화시켰습니다.”라고 말했습니다. “컴퓨터는 이제 이미지를 이해하고, 음성을 이해하고, 언어를 이전보다 훨씬 더 잘 이해하며, 이는 흥미로운 새로운 가능성을 열어줍니다. 또 다른 관찰은 규모를 늘리고 더 많은 계산, 더 많은 데이터를 사용하고 더 큰 모델을 만들면 더 나은 결과를 얻을 수 있다는 것입니다. 그리고 우리가 실행하려는 계산의 종류, 이를 실행하려는 하드웨어가 극적으로 변화하고 있습니다.

“내 생각에는 이것이 컴퓨터 하드웨어 설계자에게 중요한 교훈이라고 생각합니다. 우리는 개선되는 ML 연구 환경에 부응할 수 있어야 한다는 것입니다. 나머지 강연에서는 몇 가지 중요한 트렌드와 머신러닝 모델, 컴퓨터 설계자에게 미치는 영향, 빠르게 변화하는 분야에 발맞추기 위해 ML 하드웨어를 설계하고 신속하게 배포하는 방법에 대해 이야기하고 싶습니다."

때로는 결론부터 먼저 시작하는 것이 가장 좋습니다.

Google의 수석 과학자인 Dean은 강연의 전반부에서 (주로) 하드웨어 설계 동향을 파헤쳤습니다. Google 연구원이자 네트워킹 분야의 기술 리더인 Vahdat는 탄소 배출을 억제하려는 Google의 노력에 대해 설명하고 Google의 Goodput 지표에 대해 논의하는 데 상당한 시간을 보냈습니다. Vahdat는 "Google은 2030년까지 연중무휴 24시간 무탄소 운영을 공개적으로 약속했습니다. 정말 야심찬 목표입니다."라고 말했습니다.

야심찬 이야기였습니다. 여기에는 희소성, 적응형 계산, 동적으로 변화하는 신경망 등 ML 모델 동향에 대한 슬라이드와 Dean의 발언이 나와 있습니다. HPCwire에서는 Vahdat 의견에 대한 후속 보도를 할 것입니다.

“아마도 가장 친숙한 신경망인 고밀도 모델은 모든 입력 예 또는 생성된 모든 토큰에 대해 전체 모델이 활성화되는 모델이며, 이는 대다수 기계 학습 커뮤니티의 초점입니다. . 그들은 훌륭하고 많은 훌륭한 일을 성취할 수 있었지만 희소 계산은 미래에 중요한 추세가 될 것입니다.”라고 Dean은 말했습니다.

“희소 모델에는 필요에 따라 적응적으로 호출되는 다양한 경로가 있습니다. 이렇게 거대한 모델을 사용하는 것보다 이러한 희소 모델을 사용하는 것이 훨씬 더 효율적일 수 있습니다. 그들은 단지 전체 모델의 올바른 부분을 호출합니다. 그리고 올바른 조각 측면도 훈련 과정에서 배우는 것입니다. 그런 다음 모델의 여러 부분을 다양한 종류의 입력에 맞게 특화할 수 있습니다. 최종 결과는 매우 큰 모델의 딱 맞는 1% 또는 딱 맞는 10%를 만지는 결과를 낳고, 이를 통해 반응성과 정확도가 향상됩니다.”

Dean과 동료들이 2022년 논문(A Review of Sparse Expert Models in Deep Learning)에서 언급했듯이 희소성은 새로운 것이 아닙니다.

그 논문에서 그들은 “희소 전문가 모델은 딥 러닝에서 인기 있는 아키텍처로 다시 떠오르는 30년 된 개념입니다. 이 아키텍처 클래스에는 전문가 혼합, 스위치 변환기, 라우팅 네트워크, BASE 레이어 등이 포함되며, 모두 각 예가 매개변수의 하위 집합에 의해 작동된다는 통일된 아이디어를 가지고 있습니다. 이렇게 하면 희소성 정도에 따라 매개변수 개수가 예시당 계산에서 분리되어 매우 크지만 효율적인 모델이 가능해집니다. 결과 모델은 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 영역에서 상당한 개선을 보여주었습니다.”