NVIDIA H100의 20배 성능... Cerebras의 세계에서 가장 빠른 AI 추론기 등장 | On-Chip 메모리와 웨이퍼 기반 칩 설계 의미
Published: Aug 28, 2024
Duration: 00:23:45
Category: Science & Technology
Trending searches: cerebras
이 tsmc 원하 공정을 만들어졌는데 tsmc 원하 공정이 굉장히 성숙된 공정이기 때문에 수이 높기 때문에 이렇게 커다랗게 웨이퍼를 만들어도 hbm이 절대로 이룰 수 없는 엔비디아 GPU 아무리 때려넣어도 할 수 없는 그거를 셀레브라스 할 수 있다는 거죠 지금 기술력이 짱인 기업이 누군지 7,000 단어로 표현해 줘 이렇게 해 볼게요 자 지금 봐봐이 다 나왔어 이미 708년가 볼게이 700억 파라미터가 진짜 많거든요 그냥 바로바로 쭉쭉 나와 진짜 빠르지 않습 지금 계속 나오고 계속 나오고 있어 자 더 충격적인 거는 밀리 토큰 당이 비용을 굉장히 싸게 [음악] 내놨어요네 여러분 반갑습니다 안델 공학 에러입니다 엄청난 물건이 또 나와 버렸습니다 hbm 없고요 엔비디아 hbx 칩 사이즈의 신일곱 배나 되는 저 크기의 셀레브라스 칩이 나왔는데요 세계에서 가장 빠른 AI 추운기 해서 오늘 한번 정리를 해 볼 겁니다 hbm이 없는데이 밴드위스 그러니까 한 번에 내보내는 속도가 너무 느린 거 아니냐라고 하는데 이게 온침 메모리로 구 되어 있기 때문에 엔비디아가 가지는 메모리 밴드 이스에 비해서 7,000 배나 빠르다고 하거든요 지금 여러분들이 당장 테스트하실 수 있고요 저도 지금 데모를 시원해서 보여 드릴 텐데 초당 거의 18800 토큰 그러니까 1초에 1,00 단어가 막 이게 쏟아지는 거예요 이렇게 되면은 엔비디아의 아성이 무너지는 건지 hbm 시장도 사라지는 건지이 셀레브라스 직접이 고안을 하고 이렇게 웨이퍼 단위로 찍어내는이 칩이 앞으로 미래에 어떤 영향을 미칠지 그리고 실제로이 기술이 어떤 것들이 어떤 철학이 들어갔는지 요런 것들 좀 정리를 해 보도록 하겠습니다 지금 보시는 장편은 실제로 세레브라스의 이번 발표에서 소개한 자료인데 초당이 라마 3.1 빌리언 모델이죠 3.1의 가장 작은 모델이라고 볼 수가 있는데 아마존 베드락이라고 하는 거는이 아마존 awss 똑같이 라마 3.18 B 돌려본 거예요 그래서 초당 93 토큰이 사실 굉장히 빠른 거거든요이 토큰이란 단위가 그냥 한 두 단어라고 보시면 되니까 1초에 수십 단호가 나온다는 거 자체가 굉장히 빠른 모델이라고 보시면 되는데 물론 이거는 8bm 모델이기 때문에 굉장히 작은 모델이긴 해요 근데이 도 굉장히 빠른데이 무려 18800 토큰이 나와 버리니까 진짜 빠른 거죠 그러니까 20배나 빠르다라는 얘기를 하고 있습니다 그래서 아까 잠깐 말씀드렸다시피 결과적으로 보면은이 세레브라스의이 최근에 나왔었죠 웨이퍼 스케일 엔진 3 그러니까 앞선 모델에서 업그레이드된 요거 같은 경우에 보면은 비디아 HB 814 mm 이게은 흐린이 많았는 웨이퍼의이 레티클 사이즈 우리가 이제 노가 공정 해 가지고 막 이렇게 해가지고 집이 가장 크게 만들 수 있는게 대략 한 850mm 정도 됩니다 거기 거의 준하게 레티클 사이즈에 꽉꽉 맞춰서 만든게이 엔비디아 h 100이고 블랙 L 같은 경우에도 그래요 근 블랙 L 같은 경우에는이 레티클 사이즈로 만든 다음에 그 두 개의 칩을 엮어 가지고 gh 20000 이런 거 만들죠 어쨌든이 사이즈도 지금 현재 단일칩 공정으로는 가장 크게 만들 수 있는 칩으로 볼 수 있는데 이거는 칩 단위고 이게 웨이퍼 단위로 확장을 하다 보니까 쉰 일곱 배나 더 커진다는 겁니다 칩 사이즈가 엄청나게 크죠이 코어 단위는 물론 mbd 쿠다코어 이런 거랑 단위가 다르겠지만 16,000 단위의 코어에서 이제 90만 코어로 코어수가 많은 는 걸 보실 수가 있고요 주목할 부분은이 부분입니다 온칩 메모리 여러분 온칩 메모리라 하면 hbm 같은 경우에는 오프칩 메모리에이 오프칩 온칩 무슨 개념입니다 우리가 실제로 로직으로 막 이렇게 처리를 하는 그런 프로세서라는 것이 이제 칩이라고 본다면 그 칩의 바깥에 붙어 있는 것들이 오프 칩이에요 예를 들어 제가 지금 당장에 구글에서 이렇게 H 100이라고 쳐 보면은요 가운데 있는 것이 바로이 GPU 해당하는 부분이고 hbm 3가 하나 둘 셋 넷 다 여섯 개 이렇게 원래 집하고 다르게 별도로 오프 칩으로 이렇게 있다라는 거죠 그래서이 왔다 갔다 하는이 오프칩이 메모리 인터페이스가 필요하다는 겁니다이 hbm 컨트롤하는 컨트롤러가 있어야 된단 말이죠 그런데 여기서 다시 보시면은이 온침 메모리라고 하는 것들 그니까 디아도이 S이라고 하는 안에서 운영하는 메모리가 있는데 굉장히 작게 사용할 수밖에 없는 거예요 근데이 세레브라스의 이게 무려 44g 비디아 h 100의 880b 물론 이거는 셀레브라스 이제 웨이퍼 단위로 이제 통째로 하기 때문에 이렇게 할 수도 있겠지만 그래도이 어마무시한 단위아요 원래 이제 몇백 메가 정도로 램을 아무리 많이 박아 넣어도 단위로 보면은 뭐 몇백 메가 정도가 진짜 최대다 왜냐면 비싸니까이 비싸다는 개념도 왜 비싼지 나중에 말씀드릴게요 그리고 hbm 메모리 밴드 스도 이렇게 페타 바이트로 보면 얘는 뭐 0.003 수준인데 21 페터가 7,000 나 빠르다 이렇게 얘기를 하고 있죠이 구체적인 내용들을 좀 살펴보도록 하겠습니다 먼저 셀레브라스 기업에 대해서 알면 좋을 것 같은데이 세레브라스의이 AI 칩을 굉장히 열심히 설계를 하는 기업인데 굉장히 특이하죠이 웨이퍼 전체를 통째로 사용해서 여기에로 조직이고 메모리고장 그냥 단순한 스타트업이 아니라 실제로 많은 일들이 하고 있었어요 작년만 기준으로 보면은 수십개 엑사플롭스 수준의 컴퓨팅 자체를 구출하기도 했고요 그리고 세계에서 가장 큰 학습 클러스터의 일부를 만들었다고 합니다 그러니까 추론 한다는게 아니에요 우리 뭐 엔비디아는 그냥 학습은 이미 엔비디아가 다 써야 된다 이렇게 얘기하고 있는데이 학습 분야에서도 셀레브라스 칩을 사용하는 거고 wse 3라고 하는 저 엔진 자체가 학습에도 실제로 쓰였던 거예요 그래서 이번 발표에서도 셀레브라스 측에서 얘기를 하는게 학습에서 쓰던 것을 추론으로 그대로 가져와서 썼다는 걸 굉장히 강조를 하고 있습니다 이것과 더불어서 AI 바이오쪽 그니까 약물을 설계하고 이런 것들에도 실제로 모델링 하는데 셀레브라스 쓰 있는데 실제로 쓰이고 있고 지금 또 g 사이 그러니까 아랍 쪽에서는 지금 기술이 없잖아요 그런데이 셀레브라스 협력해 갖고 아랍어와 영어를 이렇게 운영해서 책 모델을 운영하고 있는 이런 곳 쪽에서도 투자를 많이 하고 있죠 그래서 그 칩 크기를 좀 보시면은이 셀레브라스 웨이퍼 스케일 엔진이라고 보시면은 정말 크게 만들고 있는데 자 램을 많이 박아 넣는게 비싸다라는게 여기에 있어요 이게 우리가 우리 파운더리 공정 로즈 공 정에서 10나노 7나노 5나노 3나노 가면서 로직은 계속 슈링크를 해요 줄어 드는데 이까 웨이퍼에서 차지한면 자체가 똑같은 면적에서 로직을 더 많이 그러니까 트랜지스터를 더 많이 때려 나을 수 있는 그 스케일링 계속 이제 유지를 하고 있죠 그게 이제 핀펫 이제 게이트 홀 어라운드 이렇게 계속 하면서 하고 있는데 램 같은 경우에는 이미 7나노 때부터 시작해서 5나노 3나노 갈 때이 면적을 계속 그 슈링크를 못 하고 있어요 그렇다 보니까 웨이퍼에서 차지하는 영역이 많기 때문에 그만큼 웨이퍼에서 차지는 영역이 많으면 많을 수 수록 여기서 뭔가이 큰 칩에 파티클이 하나 딱 떨어지면이이 칩 하나 다 날리는 거거든요이 칩만 아니라 웨이퍼가 있으면은 웨이퍼의 어떤 이제 먼지가 하나 딱 앉으면 그 칩은 날려야 된다는 거예요 그렇게 이제 램이이 웨이퍼의 영역을 많이 차지한다는 거 자체가 돈을 많이 써야 된다라고 얘기를 하고 있는 건데 여기서는 이렇게 커다란 집에 44g 되는 램을 박아 넣어서 별도의 램을 옆에 안 넣어도 된다는 거죠이 tsmc 온나노 공조를 만들어졌는데 테시 오나 공정이 굉장히 성숙된 공정이기 때문에 수이 높기 때문에 이렇게 커다랗게 웨이퍼를 만들어도 아마 율이 그나마 좀 커버가 가능하니까 이게 지금 동그란 웨이퍼에 가장 크게 만들 수 있는 네모난 칩으로 설계를 했다라고 합니다 아무래도 엣지 부분은이 물성이 다를 수가 있기 때문에 렇게 네모나게 설계한 것으로 보이고요 실제로 칩을 크기를 비교를 해 보면은 엔비디아 칩에 비해서 이렇게나 차이가 난다라는 거죠 그래서 세레브스 이러한 구조를 왜 선택했냐는게이 철학이 사실 중요해요 어떤 엔지니어 분들은 야 랩 때려 나는 거 그 비효율적이다 이런 얘기들 많이 하시는데 사실 레이 웨이퍼에 이렇게 많이 때려 먹으면은 비싸니까 비율 효율적인 부분이 떨어지는 건는 사실이고 전력도 많이 쓰고 이렇게 문제가 있는데 이렇게 선택을 한 이유가 있습니다 AI 모델이 점차 커질 수 있잖아요 뭐 GPT 5 나온다고 하고 agi 나온다 하고 이렇게 얘기가 된다 하면은 작은 모델들은 뭐 GPU 한 개로 돌릴 수도 있고 여러 가지 얘기가 나올 수 있는데 큰 모델들은 GPU 여러 개 엮어 가지고 해야 되고 엮어서 하면은 비디아도 MV 링크라 그가 뭐 인피니 밴드 이런거 해서 막 여러 GP 엮어 가지고 막 하게 하잖아요 그러면 그 왔다 갔다 하는 그거에 대해서 코스트가 많이 들 수밖에 없다라는 거죠 그래서 애초에 이렇게 칩을 크게 만들어서 이게 수율이 떨어져서 뭔가 비싸다 하더라도 초기 비용이 비싸다 하더라도 이렇게 많이 때려넣어서 외부에 있는 오프 칩에 있는 메모리랑 왔다 갔다 하는 시간 자체를 줄여 버려 가지고 굉장히 빠르게 만들면 이거 자체가 경쟁력이 될 수 있다라고 하는 접근이 되겠죠 그 실제로 비디아 h 100가 비교 하면은 20배나 더 빠른 속도를 적응한다고 합니다 그래서이 hbm이라는 걸 쓰면은 이게 hbm이 결국은 예전에 gddr 이라든가 lpddr 아니면 뭐 그냥 DDR 그렇고 걔네들의 그 밴드 위스 그러니까 초당 내 보낼 수 있는 데이터 수가 너무 한정적이기 때문 때문에 그거를 극복하기 위해서이 램을 층층히 쌓 가지고 뭐 tsv 뚫어 갖고 신호들을 뭐가 뭐 한 번에 많이 내보낼 수 있도록 그렇게 후공정을 통해서 패키징을 통해서 만들어낸 구조로 해서 아 이제 좀 메모리가 느려 가지고 전체가 느려지는 그 현상 바틀랙 현상을 줄인게이 hbm 이잖아요 근데이 hbm조차도 메모리 월이 있다라는 거예요 즉 hbm 때문에 더 이상 더 증가할 수 없는 퍼포먼스가 나온다는 거예요 대부분의이 모든 회사들의 것들이 빠르면 200 토크까지 초당 나오지만 대부분 100보다 낮거든요 근데 이거를 이제 극복을 하겠다라고 하는게 셀레브라스 셀레브라스 지금 1000에서 10000까지 나오니까 hbm 대신에 웨이퍼에 아예 램을 그냥 설계를 해가지고 때려 넣어 가지고 hbm이 절대로 이룰 수 없는 엔비디아 GPU 아무리 때려 넣어도 할 수 없는 그거를 셀레브라스 할 수 있다는 거죠 실제 속도를 비교를 해 보면 이렇습니다 제가 예전에 로코도 이렇게 예전에 설명 드렸잖아요 그로도 이게 메모리를 오프 칩을 사용하게 아니라 램을 많이 때려봐 구조였어요 근데 그렇고 이제 그냥 단일 칩을 그래도 이제 작은 규모를 유지했는데 셀레브라스이 웨이퍼 단위로 칩이 여러 개 따져 나오는 그 웨이퍼 통째로 했기 때문에 훨씬 더 빠른 속도를 유지할 수 있죠 저라는 aws 이런 애들이 전부 다 지금 엔비디아 백을 쓰고 있잖아요이 쓰고 있는 애들보다 훨씬 더 빠른 속도로 가고 있다 이게 블랙 옐로 가더라도 뭐 두 배 세 배 좋아지기 때문에 뭐 잘해봐야 2 300이 그든 근데 얘는 18이라는 겁니다 진짜 빠르죠 그래서 GPU 아무리 모도 할 수 없는 것들을 굉장히 빠르게 할 수 있다라고 지금 이제 내세 있는 거죠 이게 그럴 수밖에 없는게 현재 트랜스포머 구조에서는 자 여기 보 세요 더 퀵 브라운 박스 점스 이렇게 문장을 만들어 낸다고 칩시다 이게 단어들을 만들어 냈는데 더 퀵 브라운이 들어가면은 레이어 원투쓰 이게이 신경망이 트랜스폼 신경망을 하나 둘 셋 이렇게 건너가면서 그렇게 해서 폭스가 하나 나오고 그 폭스가 나오면은 그다음에 또 이걸 싹 다 넣어 가지고 그다음에 점프를 내고 이런 식이에요 이렇게 되니까 1,000개의 토큰을 넣는다 1,000개의 단을 넣는다고 하면은 1000개에 순차적으로 할 수밖에 없는 과정이 필요하다라는 거예요 그럼 그때마다 뭐가 필요하냐 엔비디아 같은 경우에는 현재 로직 그 처리를 하는 HB GPU 그 GPU 안에서 다시 오프 칩으로 메모리를 갔다가 또 가져오고 또 나갔다가 또 가져오고 이걸 계속 해야 된다라는 거죠 결국 메모리가 바틀랙이 되는데 세레브라스의 그거를 온 칩으로 처리하니까 그 왔다 갔다 하는 속도를 훨씬 더 빠르게 한다는 거죠 그 물리적인 거리 자체가 상당히 영향을 많이 미죠 실제로 그것뿐만 아니라 hbm이라는 그러한 메모리를 컨트롤하기 위한 디램 컨트롤러가 바뀌거든요 그 컨트롤러 운영을 할 때에도 그 특정한이 밴드 위로 한정이 될 수밖에 없기 때문에 이런 것에서 차이가 발생 할 수밖에 없다는 거죠 자 셀레브라스 홈페이지 여기서 나와 있는데 여러분들이 지금 바로 테스트를 해 보실 수가 있어요 자 www.sabong이라고 돼 있죠 요걸 딱 클릭을 해 보십니다 그러면은 자 지금 8 빌리가 70 빌리언요 두 개가 다 사용 가능하죠 이거 지금 구글로 로그인만 하면 여러분들 다 하실 수 있습니다 자 8 빌리부트 해 볼게요 8밀리 하면은 지금 기술력이 짱인 기업이 누군지 7 천 단어로 표현해 줘 이렇게 해 볼게요 람마 8 빌런으로 해가지고 하는데 자 지금 봐봐이 다 나왔어 이미 이미 다 나왔어요 뭐 지금 속도가 보니까 초당 1828 토큰입니다 진짜 빠르죠 너무 빨리 나와 가지고 제가 좀 작게 만들어 볼까요 좀 작게 만들어서 다시 해보면은 테슬라의 일론 머스크에 대해 아는 정보를 7천 단어로 이야기해 보세요 지금 눌렀습니다 누르기 전에 작게 만들어 갖고 얼마나 빨리 나오는지 한번 봅시다 자 보면은 그냥 쑥쑥 나와 바로 나와 버리죠 이렇게서 빠로 나는 겁니다 물론 지금 여러분 보시는 거는 빌리네요 그 70b 가볼게요이 700억 파라미터가 진짜 많거든요 똑같은 거 해 볼게요 나는 공하기 너무 싫어 공학적으로 재미있는 걸 7천 단어로 이야기해 이렇게 하니까 그냥 바로바로 쭉쭉 나와 진짜 빠르지 않습 지금 계속 나오고 계속 나오고 있어 이런 식으로 나올 수 있다라는 거죠 자 엔비디아 같은 경우에는 자 보세요 이렇게 GPU 다이가 있어요 이게 뭐 h 100이 아니면 블랙 웨리 건 뭐 이게 있겠죠 그리고이 하이닉스가 만든 hbm 스택이 이렇게 다 쌓여 있으면은이 사이에 실리콘 콘 인터 포즈라 걸 넣어요이 실리콘 인터포저 아는게 메모리랑이 바깥에 있는 오프칩 메모리랑 GPU 이게 실질적으로 금속으로 연결을 하고 싶은데 너무 세밀하고 많다 보니까 hbm 이렇게 tsv 뭐 1020 내기 248개 뚝뚝뚝 뚫은 애들을 이렇게 GPU 연결을 해 줘야 되잖아요 실제로 얘네들이 전기가 연결이 돼야 되잖아 그거를 하기 위해서 굉장히 세밀한 반도체 공정으로 실리콘 인터포저를 연결을 한 거거든요 이런 식으로 해갖고 메모리가 한 방에 내보낼 수 있는 것들을 지표로 빠르게 전달하기 위해서 이렇게 각각을 다 웨이퍼로 각각 만들어 놓고 싹 가지고 패키징 한 다음에 얘네들 하나하나도 사실 이제 쌓아 올리는 패키징을 하죠 뭐 mrr 머프 든가 그런 방식으로 하는데 이거를 후공정에서 다시 이제 조립을 하는 과정이 필요하다라는 거예요 이게 디램의 속도가 한 개가 있을 수밖에 없는게 디램이란 구조가 원래 그렇거든요 캐패시터란 이렇게 딱 이제 달려 가지고 하나씩 하나씩 셀로 달려 있는데 그 대학교때 전자 전기 공학과 가면은 요런 걸 배웁니다 메인 메모리가 있고 버철 메모리가 있고 메인 메모리 중에서는 주로 이제 우리가 램을 사용을 하잖아요 근데 얘가 속도가 그 SS 하드에 비해서는 굉장히 빨라요 빠른 속도로 굉장히 빠르죠 나노 세컨드로 막 빠르게 움직이면서 하는데 얘들은 이제 계속 저장이 안 되죠 얘들은 저장을 하니까 디램이 이렇게 빠르지만 실제로이 캐시에 해당하는 램 이것보다는 느립니다 그러니까 램이 훨씬 더 빠른데 얘네들을 많이 넣을 수 없는 이유가 바로 아까 말씀드린 웨이퍼에가이 온치 메모리를 막 박아 놓으면은 이게 그만큼이 웨이퍼의 면적을 차지하니까 다른 거를 못 넣잖아요 그러니까 그만큼 칩이 커질 수가 있고 그렇게 되면은이 웨이퍼 한 장당 나올 수 있는 칩 개수가 작아지니까 그만큼 비싸진다는 얘기입니다 그래서 오프칩 메모리를 쓰면은이 오프칩 자체가이 속도가 느리니까 웨이퍼에을 박아 놓면 어떨까 이렇게 하는 회사들이 이제 그로크 든가 아니면 지금 보시는 셀레브라스 그래프 코어 같은 회사들도 있어요데 그래프 코어는 약간 좀 재정 난에 이기면서 딴데 팔려가고 막 그렇게 얘기를 했죠 얘네들이 이제 램만 이용을 해 가지고 애초에 램을 운용하는 디램 컨트롤를 삭제한 다음에 그냥 램으로 바로바로 얘기할 수 있으니까 진짜 빠르게 처리를 할 수 있는 거예요 브로커 같은 경우에도 초당 400 토큰 정도 나오거든요 그 진짜 빨리 하기 때문에 디램 대비해서 전력 손보다 적고 속도도 수백 배나 빠를 속도로 지원을 할 수가 있는 거죠 근데이 램이 문제가 뭐냐면은 아까 말 말씀드렸다시피 비싸기 때문에 용량을 많이 넣을 수가 없는 거예요 많이 넣어 봐야 수예요 그런데 세레브라스의 많이 넣어 봐야 메라는게이 칩 단위로 얘기를 한 거거든요 근데 이거를 아예 웨이퍼로 늘린 거예요 엔비디아 같은 경우에는 컴퓨팅 하는 것과이 hbm 메모리가 왔다 갔다 왔다 갔다 계속 왔다 갔다 해야 되는데 애초에이 웨이퍼 안에서 온 칩으로 왔다 갔다 하니까 좋으니까이 밴드 이스가 엄청나게 빠르다는 거죠 초당 3tb 사실 어마어마한 거였는데 웨이퍼 안에서 온 칩으로 빠르게 처리하니까 21 페타 아지도 나온다는 겁니다 이렇게 놀라운 속도를 지원을 하는데 사실 HB 같은 경우에는 그것보다 더한 것들 더 큰 모델을 운영을 해야 되고 하는 입장에서는 각각에 h 100이이 9,000 GB 이제 초당 아오 밴드위스 가진다고 하면은 여덟 개를 엮어 가지고 7.2t 아지 이제 지원을 하죠 그러면서 아이오 밴드위스 7.2tb지 지원하고 메모리 밴드위스 26.8m 아지 지원을 해요 근데 여기에 세레브라스의 no 각각의 다이 하나하나가요 다이 하나하나가 255를 하면서 전체로 치면은 21 페타바이트 지원 한다 그래서이 전체가 97w Pro 하면서 단순히 여섯 배의 파워로 봤을 때 얘가 훨씬 더 높게 나올 수 있다 뭐 이런 얘기를 하고 있죠 물론 이거는 공정한 비교는 아니지만 이렇게 가능성을 더 높일 수 있다는 거죠 왜냐면은 백은 아무리 엮어도 이게 불가능할 수가 있기 때문에 오프 다이가 가지는 한계를 온 다이로 그니까 온 칩으로 하면은 무조건 훨씬 더 높은 성능을 발휘할 수 있다는 거죠 각각의 칩을 처리할 때도이 레이어라고 표현된게 이제 그 AI 모델을 처리를 할 때 순차적으로 딱딱딱 처리를 해야 되거든요 그러면은 GPU 같은 경우에는 여러 GPU 한 레이어 쫙 처리하고 그다음 레이어 처리하고 이렇게 해야 될 때가 많아요 근데 셀레브라스 한 싱글 레이어를이 전체 칩 중에서 일부가 처리할 수 있다는 거야이 그만큼 처리 용량이 크니까이 말은 뭐냐면은 엔비디아 GPU 그런 GPU은 어쨌든 속도의 한계가 있단 말이잖아요 근데 이렇게 크게 여유롭게 만들어 놓으면은 정말 즉각적으로 반응을 하잖아요 기존에는 못했던 것들을 갑자기 할 수가 있다는 거예요 저 어렸을 때 하이텔 나오누 이런 거 하면서 모뎀 진짜 14k 진짜 느린 걸로 막 엄마한테 막 이제 혼나면서 전화선 연결해 갖고 진 진짜 10몇 시간씩 해가서 다운 받았거든요 그 저같이 미춘 놈들은 그거를 그렇게 다운을 받겠지 만도 모뎀으로 할 수 없는 그 수많은 것들 있잖아요 근데 이게 뭐 나는 메가패스 두루넷 이런 adsl 기반의 랜이 나오면서 그런 것들을 굉장히 빠르게 처리하면서 할 수 있다라는 거죠 뭐 그것뿐만 아니겠습니까 스마트폰으로도 옛날에 속도 늘을 때는 전압만 됐는데 이제는 뭐 걸어다니면서 유튜브 보잖아요 옛날엔 그게 불가능했는데 이것도 마찬가지죠 AI 바로 추론 했을 때 정말 느리게 되면은 절대로 상상할 수 없는 거를 여기서는 상상할 수가 있다라는게 핵심이에요 그리고 이제 라마 이제 큰 첫모델 있죠 라마 70 BM 같은 거 이번 처리했던 거 이것들은 셀레브라스네 개의 칩을 연달아서 엮어서 하면은 이렇게 만들 수 있다 각각 이제 44g 45gb이 정도 수준의 온치 매물를 갖고 있으니까 140gb 이것도 근데 플로팅 포인트 16을 지원합니다 그러니까 디아가 지난번 블랙웰 때 뭐 플로팅 포인트 4를 지원해서 뭐 굉장히 속도가 늘어졌네요 이제 구차하게 얘기를 했는데 얘는 정확도를 플로팅 포인트 16 한 숫자단 굉장히 높은 프리시즌을 가지면서 정확도를 떨어뜨리지 않으면서도 이렇게 충분히 지원할 수 있다는 얘기를 하고 있 것이 되겠습니다 그래서 엔비디아 GPU 같은 경우에는이 70 빌리를 봤을 때 한 개인 유저가 프롬프트를 던져 가지고 초당 토큰을 얻어 되는게 뭐 배치 사이즈 GPU 그은 이쪽 영력을 절대로 처리할 수 없다 배치가 1일 때는 렇게 많이 처리할 수 있지만 이게 배치가러 개 늘어나게 되면은 초당 내보낼 수 있는게 그만큼 줄어들게 되겠죠 즉 GPU 차지할 수 있는 영역 GPU 할 수 있는 거는요 정도 영역인데 세레브라스의 할 수 있는 영역은 자 보세요 지금 방금 그 보신 그래프가 요거 있는데 요것보다 말도 안 되는 영역에서 이렇게나 많이 할 수 있다 아예 새로운 영 력을 뚫어서 할 수 있기 때문에 이만큼 할 수 있다라는 거죠 그 셀레브라스 자신이 있다라고 하는 부분들이 이런 부분들인데 여기서 더 나가서 굉장히 흥미로운 얘기를 합니다 자 속도가 빠른 거 그만큼 성능이 엄청나게 높다라고 하는 시간을 굉장히 단축시킬 수 있다라는 것이 곧이 퀄리티를 늘릴 수 있다는 얘기를 하거든요 무슨 말이냐면 우리가 프롬포트 방식 중에 뭐 원 샷이라 그가 뭐 퓨샷 아니면 체인오브 소트 이런 방식 프롬프트를 이제 이렇게 생각의 흐름에 따라서 로직에 따라서 여러 가지를 넣는 방식을 하면은 그만큼 또 정확도가 높잖아요 애초에 여러 번 이렇게 빨리빨리 나오면 그만큼 이렇게 우리가 인퍼런스 많이 하게 될 거잖아요 여러 번 커리를 던지는 거죠 그러면 그만큼 더 정교한 답을 얻을 수 있는 가능성이 높다라는 그러한 장점도 가질 수 있다는 거죠 즉 속도가 빠르면 그만큼 훨씬 더 정확도를 높이 하면서 AI 추론할 수 있는 가능성이 높아진다는 얘기를 하고 있는 것이 되겠고요 각각의 코어에 대한 얘기는 제가 뭐 따로 지금 영상 촬영이 너무 길어지고 있어서 이건 따로 다루게 되겠습니다 라이 들어가 있고 로직이 이렇게 들어가 있는 건데 요거는 관심 있으시면은 추가로 따로 이렇게 얘기를 하게 되겠습니다 코어가 여기 굉장히 작은 다이에 하나 들어가 있고이 다이가 또 전체 웨이퍼에 들어가 있다 라고만 일단 이해를 하고 계시면 되겠고요 그래서이 wss 인터커넥트고 하는게 각각의 다이이 바로바로 연결되는 구조가 되니까 뭐 이더 네이션이 뭐 MV 링크가 어떻고 인피니 밴드가 어떻고 이런 것들 다 MV 쓰는 거 다 필요 없이 안에서 바바바바바 바로 움직이니까 굉장히 빠르게 처리를 할 수 있다 아예 다른 칩으로 옮길 필요가 없다는 얘기를 하고 있는 것이 되겠고요 애초 wse고 하는게 아까 말씀드렸다시피 추용 아니라 트레닝 용으로도 하고 있기 때문에 여기서도 점차 확장할 가능성이 있다는 거 보시면 되겠죠 자 저렇게 웨이퍼 크게 해가지고 전력 소모 많으면은 실제로 막 20kw 이상 되거든요 어떻게 저거를 데이터 센터에 넣냐 뭐 이렇게 비판하신 분도 있는데 아니 이미이 하이퍼 스케일링을 구축을 해 왔어요 세라바 첫 번째 모델이 이렇게 만들어져 왔고 그다음에 캘리포니아주의 스톡턴 이렇게 또 이제 만들었고 계속 이렇게 세 번째 시스템은 텍사스 델라스 ES 이렇게 만들었고 계속 이렇게 만들어 가고 있어요 실제로 이렇게 운영을 해 가지고 지금 사업을 하고 있다는 얘기니까 뭐 aws not 뭐 다른 다양한 클라우드 업체에서는 법률적으로 쓸 수 없어라고 하지만 애초에 딱 늦게 보면은 지금 현재로서는 이게 범용적으로 쓸 수가 없겠죠 그만큼 추론 비용이라든지 여러 가지 한계가 있을 수 있는데 이만큼 압도적인 경쟁을 가지면 그만큼 더 다른 애플리케이션이 나올 수 있다라는 점에 주목을 해야 되지 너무 요것만 딱 보고 저거는 뭐 비용 청인 측면에서 열 소모가 어떻고 이런 한 것들은 앞으로 더 발전되는 거를 생각하지 못한 좀 근시안적인 해석이라고 볼 수가 있습니다 그래서 세레브라스의 밴드위스 유틸라이제이션 측면에서 보더라도 다른 다양한 어떤 클라우드 업체나 서비스 업체들에 비해서 굉장히 높은 거를 보실 수가 있고요 앞 로도이 라마 3.1 8리 7빌리언 지금 두 개 나왔죠 이거 여러분 지금 당장 해 볼 수 있습니다 그냥 구글 계정이나 뭐 로그인만 하면은 바로 되는 거고요 공짜로 쓸 수가 있고요 그다음에 API 쓰려면 이제 밀리언 단 토큰 이런 얘기를 하고 있죠 그리고 곧 라마의 가장 큰 모델인 405 빌리언이십일 어요이 시장을 아예 잡아 먹겠다는 거죠 정말 싸게 내놓은 상황이니까 운영 측면에서의이 지금 클라우드 시장이 어떻게 변화해 갈지도 좀 두고 봐야 될 고요 그렇지만도 이제 단점이 있죠 사실 그냥 장점만 있는 것이 아닙니다 아무래도이 웨이퍼 단위로 하다 보면은 여기 파티클 하나만 떨어지면이 칩에 해서 굉장히 비싸죠 원래 tsmc 5나노 공정의 웨이퍼 한 장당 가격이 16,000 달러로 알고 있거든요 2천만 원 이상 되는 건데 이게 수율이 떨어지는만큼 그만큼 이게 하나씩 날아가 버리는 거예요 그리고이 전력 소모가 굉장히 큽니다 23kw 정도 되는데 사실 지금 이렇게 빠를 필요가 있느냐 이렇게 빨리 안 내 뱉어도 자 HB 같은 경우에 이제 700에서 1화라고 보면은 HB 한네 장에서 여섯장 쓰면은 한 5kw 안 되거든요 근데 얘는 이제 20kw 그 너무이 전력 소모가 크니까 냉각도 필요하고 막 이런 것들이 있는데 어쨌든 그 그거를 충당할만큼 정말 빠른 속도를 내고 있다는 점은 주목을 해야 될 부분이겠죠 물론이 비디아 같은 경우에는이 대역폭의 한계를 깨뜨리기 위해서 hbm 가져온 거고 얘 같은 경우에는 아예 웨이퍼로 해서 온집으로 박은 거니까 이게 앞으로 이제 대량 양상 이 될지 그리고 이걸 칩 스케일링을 더 크게 해서 할 때에이 바틀 레그 엄지에 대한 검증은 좀 더 필요한 상황이 되겠습니다 이건 좀 더 지켜볼 필요가 있고요 대신이 칩이 여러 개 엮으면서이 열 밀도 아고 하죠이 같은 공간에 열이 너무 많이 발생하기 때문에 발생하는 문제들을 어떻게 해결해야 될 것이냐 요런 것들을 좀 살펴봐야 될 거고요이 엔비디아를 모든 걸 대체를 하지 못하지만 엔비디아가 절대 할 수 없는 것들을 세레브라스의 거는 굉장히 고무적인 일이죠 거기다가 아랍 쪽이랑 지금 결탁을 해 가지고 뭔가를 하고 있다는 얘기도 들리고 여러 가지들이 지금 이가 나오 있기 때문에 요거는 조금 더 지켜봐야 될 일이라서 제가 좀 더 따라갈 거고요 그리고 소프트웨어 생태계가 워낙 이제 강력하기 때문에 엔비디아가 이거를 또 이제 셀레브라스 어떻게 접근할 건지에 대한 것도 조금 더 살펴볼 필요가 있는데 요것도 이제 프레임워크를 많이 이제 도입을 하고 있으니까 좀 더 이제 개발을 해 나가면서 지켜봐야 될 상황으로 보입니다 제가 스승님으로 생각하고 이제 많이 배우고 있는 이제 아주 친한 지인분이 한 분 계신데 이분이 이제 또 저 금융계에 종사를 하고 계세요 그래서 이런 얘기를 하더라고요 야 만약에 이게 지금 당장 이루어질 수 없는 기술이라고 한다고 하더라도 결국은 언제 든가 시간을 투자하고 돈을 때려 넣으면은 할 수 있는 일이라고 하면은 이거는 엔비디아가 이제 무너질 수도 있다는 거 아닐까라고 하는 의견을 주시더라고요 저는 그게 진짜 약간 깨달음 왔던게 지금 뭐 사실 금융 시장에서는 저는 뭐 잘 아는 건 아니지만 금리가 뭐 떨어지고 뭐 이런 얘기들이 나오잖아요 그니까 우리가 돈을 빌리고 이제 이자를 많이내는 그 비율이 앞으로 한 5년 동안 떨어질 거라는 예상이 있는데 그렇게 되면 이제 빅테크 들이고 많은 사람들이이 돈을 빌리는데 더 비용을 이제 덜 들일 거고 그만큼 더 투자를 많이 해서 더 빨리 기술을 개발할 수 있지 않느냐 약간 이런 시각으로 말씀을 해 주셨어요 그만큼 이제 기술을 개발한다는 거 자체가 굉장히 자본 지발 속인 일이고 그 어느 누구 하나만 이제 나가서 갈 수가 없는 일이기 때문에 어쨌든 지금 상황에서 엔비디아가 황제인 거는 맞는데 앞으로이 기술에 있어서는 또 계속 아키텍처가 바뀌고 뭐 짐 켈러가 등장하고 여러 가지 얘기들이 나오잖아요 요러한 것들에 대해서 안테나를 잘 들고 좀 잘 파악을 해야 되지 않나 하면서이 세레브스 내용을 정리를 해 보았습니다 마지막으로 안델 공학 인스타그램 요렇게었습니다 언택 . 에러로 들어오시면 되겠고요 유튜브에서 다루지 못한 요런 것들 좀 약간 재밌는 거 삼적 보인 로봇 선풍기 아네이 유선이라 건 비밀 요런 것들 계속 올리고 있으니까 많은 분들이 팔로해 주시면 정말 감사하겠습니다 지금까지 안될 공학 [음악]