# 또 마지막 글 - 그냥 재미로 본 근미래 이야기
늘 그렇지만 오래 머물 생각은 없어. 이 글이 또 한글로 쓰는 마지막 글일 거야.
매번 반복되는 터라 모르고 시작하는 것도 아닌데...
많은 분들이 한글로 쓰는 게 편하다고 하지만, 그럴 때마다 벌어지는 일이야. 세상엔 빛이 있으면 어둠도 있기 마련이잖아. 유튜브 돌아갈 생각 없는 이유고. 어디든 한글 콘텐츠 길게 남겨두기 싫은 이유고. 영어로 쓰면 그런 일이 없어. 꼭 한글로 쓰면 이상한 애들이 꼬여. 굳이 감산혼합하려는 애들. 또 늘 말하지만, 가산혼합 놔두고 감산혼합하는 애들은 그렇게 사는 것 자체가 벌이라... 탓할 이유도 없고, 그런다고 말 들을 애들도 아니고.
이것도 짬이 생겨서 좀 비율이 많아진다 싶으면 슬그머니 빠질 뿐이야. 이번에도 그럴게.
역시 늘 말하지만, 왜 느닷없이 한글로 글을 쓰고 싶어지는지는 나도 몰라. 연금술사 그러라고 옆구리 쿡쿡 찌르면 그냥 할 뿐이야. 그만둘 때는 내 의지인 거고. 지난 번 관둘 때도 다신 안 하겠다고 했는데... 부질없는 소리야. 시키면 또 해야돼. 그래도 '거 좀 그만 합시다...' 그만둘 자유도 허락하는 양반이라. 이해하셔. (그런 차원에서 유튜브 돌아오라는 부질없는 소리들도 그만하시고. 그대들도 당해보면 할 생각 눈꼽만치도 안 생길 거야.)
그럼 또들 그러겠지 어디갔다 왔냐고... 난 떠난 적이 없다니까. 그냥 영어로만 글을 쓸 뿐이야. 알고리즘으로 내 글이 떠내려가는 건 그대들 선택인 거고. 굿럭.
다시 영어 온리로 돌아가기 전에 마지막 하고 싶은 말 *자유롭게* 주절 거리고 갈게.
---
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
인간의 엔지니어링 역사는 짱구 vs. 도구빨의 역사라고 해도 과언이 아니야. 원래 짱구 굴리는 동물이잖아 인간이. 호모 사피엔스 사피엔스. 문제가 생기면 일단 그 짱구로 해결하는 동물...
근데 짱구로만 해결이 안 되니까 도구를 쓰는 거거든. 도구는 양날의 칼이야. 도구가 조낸 편해지면 짱구를 덜 쓰게 되니까.
황금 비율이 있어야 하는데, 그게 깨질 때가 문제야. 쓸데없이 짱구를 낭비해서도 안 되지만 그렇다고 너무 안 굴려도 문제거든.
요즘 ChatGPT 등 인공지능 탓에 머리 안 쓰는 사람들이 늘어난다는 우려도 그런 문제의 한 측면이야. 실제로 앞으로 큰 문제가 될 거야. 도구를 잘못 쓰는 사례니까.
내가 코딩 처음 배우던 대삐리 시절로 돌아가 보면... (이게 언제냐면 리너스 토바즈가 리눅스 커널 이제 막 만들기 시작하면서 미닉스 유즈넷 그룹에 글 올리던 시절이야. 응, 고려짝 얘기지.)
어셈블리 언어(assembly language)라는 걸 쓸 정도로 엔지니어들이 짱구를 많이 굴려야 했어. 왜? 하드웨어가 그만큼 받쳐주질 못해서 찔끔이라도 더 뽑아내야 했거든. 기껏해야 램 640KB에 (응, 맞아 킬로바이트, 메가도 아니고) 하드디스크 20MB(응, 기가나 테라 아니고 메가)로 버티던 시절이거든. 컬러 모니터는 개뿔... 2색짜리 허큘리스 그래픽 카드에 SIMCGA라는 4색 시뮬레이션 소프트웨어 올려서 그나마 게임 돌리던 진짜 고려짝 시절...
그땐 한글 쓰는 게 자유롭지를 않아서 특히 한글 문제로 어셈블리 언어를 많이 썼어. 한글 라이브러리라는 것도 C + Assembly 로 만들었고. C도 조낸 빠른 언어인데 감당이 안 됐거든 그 속도만으로는. 어셈블리면 C와 기계어의 중간이야.
mov ax, bx ; BX의 값을 AX로 복사
add ax, 10 ; AX에 10 더하기
jnz somewhere ; 결과가 0이 아니면 somewhere 레이블로 점프
지금은 정치하는 그 의사출신 양반 있잖아? 응, 그 양반이 저 어셈블리 언어로 백신을 만들어서 온 세상 바이러스 먹은 컴퓨터를 구원하던... 뭐 그런 양반이었어. 같은 시대를 산 터라... 그 양반이 공개한 V3 백신 어셈블리 소스(마이크로소프트웨어라는 잡지에)를 일일이 입력해서 링크하고 컴파일해서 돌리던 시절... 나중엔 회사도 차렸지만, 원래 오픈소스였어. 지금은 거의 아무도 컴쟁이로 기억해주지 않지만 원래 그런 양반이었다우. 개인적으로는 그냥 그렇게 기억되는 게 낫지 않았을까 싶지만... (알지? 나 정치 싫어해. 일단 정치권에 발 들여 놓으면 손절해. 어떤 이유로든...)
응, 그냥 그런 시절이었다고. 짱구를 더 많이 굴리던 시절...
개발자들이 진짜 맨땅에 헤딩을 더 많이 하던 그런 시절.
그러다 하드웨어가 슬슬 좋아지기 시작했어. 소프트웨어도 자리를 잡기 시작해서 중구난방이던 개발 시스템이나 춘추전국시대 방불케하던 라이브러리들 같은게 프레임워크로 중원 통합되기 시작했고.
격변이 혁명으로 중화되면서 드디어 자리를 잡은 거지. 컴퓨터 성장통이 슬슬 잦아들면서...
근데 여기서 꼭 문제가 생겨. 짱구를 덜 굴리기 시작하면 도구(하드웨어) 의존도가 심해지거든.
컴퓨터 혁명 + 인터넷 혁명이 이어지면서 돈도 꼬이고... 그럼 하드웨어를 쟁여두고 쓸 정도로 여건이 더 좋아져.
2천년 초 닷컴 버블 때가 그랬어. 짱구 굴리기 딱 좋을 때였는데 시장에 참 많은 눈먼 돈이 몰린 거야. 하드웨어 깔기도 딱이지. 네트워크 장비... 리눅스 서버... 엄청 팔리고 쌓이던 시절. 나도 서버 4대쯤 쌓아놓고 사업했으니까.
광고 클릭하면 돈 드려요... 뭐 이런 웃기는 아이디어 하나로 상장하던 이상한 시절. 기업이 돈은 쥐뿔도 버는 게 없는데 외형만 키우면 대충 상장이 가능했어. 대충 10억 안짝으로 공모해서 상장도 하고...
매출 기준으로 하는 PSR 지표가 그때 만들어진 거야. 왜? PER은 안 나오거든. 버는 돈이 없으니까. 뭐라도 양수를 만들어낼 지표가 필요해서 나온 거라고. 진짜 아무짝에 쓸모없는 밸류에이션 지표 중 하나인데...
내가 리눅스 서버를 샀던 업체 직원들은 은행에서 마구 대출을 해줬대. 테크 기업이다 싶으면, 다들 잘나간다 여기던 시절이니까. 응, 망했어. 알잖아, 닷컴 버블 어떻게 끝났는지. (국수를 뽑아내서 팔아도 누들테크라는 식으로 이름 바꾸면 상한가 치던 때야.)
이 리눅스 서버 업체가 어떻게 막을 내렸냐면...(다른 하드웨어 업체들도 마찬가지지만... 시스코도 그랬어.)
더 이상 사줄 애들이 남지 않은 거야. 나도 서버 4대 사고는 더 살 이유가 없었으니까. 그럼 뭐만 남을까? 응, A/S 부담만 남아. 재고는 쌓이고. 그럼 망하는 거 순식간이야. 갑자기 절벽이 찾아오니까.
닷컴 때는 진짜 돈 버는 기업이 거의 없었어. 그 때 생존해서 지금까지 명맥을 이어오는 기업은, 네이버 정도? 거의 없다고 보면 돼, 어느 나라든. 시스코도 살아 남았지만, 그 시절의 영화는 되찾기 어려울 거고. 네트워크 장비 한번 사면 10년이야. 우리집에 쌓인 시스코 장비도 벌써 신품 샀던게 5년 6년 접어들고... 닷컴 시절로 돌아가긴 어렵지.
닷컴 이후 죽 이어지는 엔지니어링 씬을 돌이켜보면 사실 짱구는 퇴보했어. 도구는 정말 좋아졌는데. 개발환경도 판타스틱 수준으로 좋아지고. 과거에는 죄다 만들어 써야 했는데 지금은 뭐 뚝딱 pip install 하나면 없는 게 없는 시절이니까.
Cursor 같은 IDE도 그래. 거의 마법상자 수준으로 좋아진데다 이젠 AI Copilot까지 동원해서 주둥이 코딩(vibe coding)이 가능해졌다고들 (착각)하잖아. 그럼 더 짱구를 안 굴리게 되지. 도구 의존도가 심해지고.
시장에 공급되는 돈이 넘쳐나면 일단 도구부터 확충하려 드는 게 사람이야. 하드웨어든 소프트웨어든. 인공지능 시대에는 주로 compute라고 하지. 응, computation이 아니고. 주로 GPU 기반 관련 리소스를 퉁쳐서 compute라고 해.
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
가끔 마눌님이 물어볼 때가 있어. 통번역사 직업 인공지능 시대에 위험하다고들 하는데 이런 저런 큰 기업에서 마구 흡수한다고.
응, 그 마구 흡수하는 기업을 보면 딱 여전히 startup 상태인 친구들이야. 닷컴 때처럼. 덩치를 불려야 하는 시기인 기업들. 안정적인 수익을 추구하는 stalwart 단계가 아니라 성장 지향적인 growth play 중에서도 극초반인 그런 기업. 언발에 오줌이라도 눠야 하는. 막 상장하려거나 막 상장했거나... 뭐 그런. 감 오실 거야.
제대로 현실을 보려면 안정적으로 버는 업력 오래된 기업을 봐야돼. 마이크로소프트 같은 애들. 걔네 뭐해? 응, 필요없는 '짱구'를 덜어내지. 도구로 퉁칠 수 있으니까. 왜? 보여주기식으로 급하게 외형 불릴 애들이 아니거든. 그건 옛날 얘기인 애들이니까. '짱구'를 덜어내는 애들을 보셔. 왜 그런지. 안타깝지만, 요즘 덜어내는 '짱구'들은 그만큼 질을 인정받지 못하는 짱구들인 거야. 도구에 밀릴 정도로...
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
인공지능 발전도 (이제 시작이지만) 비슷한 길을 걷고 있는데...
지난 글에서 *개인적으로* 현재 인공지능 발전의 발목을 잡는 게 transformer 아키텍처랑 GPU 라고 했잖아? 지금의 인공지능 시대를 열어준 게 딱 이 둘인데... 이젠 발목을 잡는 형국이거든.
그럼 딱 보셔. 또 짱구 vs. 도구 문제야. 트랜스포머는 LLM으로 대변되는 인공지능의 설계(아키텍처) 부분이거든. 인간이 짱구 굴려야 할. 그걸 현실로 돌려주는 게 하드웨어 도구 GPU고.
근데, 도구는 늘 한계가 있잖아. 마냥 늘릴 수가 없어. 두가지 문제가 발생해.
첫째, 물리적 제약이 따라. GPU 클러스터는 발열과 전력, 환경 문제로 한계가 분명해. 이미 전력은 글로벌로 문제야. 주변에 따로 발전소와 변전소를 짓지 않으면 더 세울 수 없을 정도로. 응, 지금 거의 만땅 수준이라는 거야.
둘째, 한계 효용이 체감해. 이건 뭐 만고의 법칙이라...
첫째는 쉽게 이해하실 테고... (더 궁금하면 GPU와 전력 상관 관계를 공부하셔. 영어로 grid bottleneck 뭐 그런 걸로 찾아보시면 답이 좀 보일 거야. Grid가 병목이거든. GPU 10만개, 20만개... 이게 걍 애들 장난이 아니야. 그걸 쌓아놓은 그림을 그려보셔. GPU가 어떻게 생겼는지 구경도 하시고... RTX 급이잖아? 그럼 기껏해야 소비자/프로슈머 급이라서 팬도 달려나와. 근데 엔터프라이즈급이잖아? 팬도 거의 없어. 알아서 발열 처리하라는 뜻이야. 그걸 10만개 20만개 쌓는 거야. 클러스터라는게... 이런 헤드라인이 나오는 이유야: "It’s not GPUs that are in short supply anymore. It’s grid access." 근데 전력 문제만이 아니고, 당근 환경 문제가 심각해져.)
둘째만 보면...
Compute를 늘리다보면 인공지능 성능이 좋아져. 어느 선까지는. 한계효용이 치고 들어오기 전까지. 배고픈 사람이 맛난 거 먹는 그림 그려보시면 돼. 처음엔 맛있지, 슬슬 배가 차오면 덜 맛있다가, 더는 못 먹는 수준이 되는, 뭐 간단히 그런 거야. 효용이 엉망이 되는.
간단히 LLM의 역사를 보실게. 그대가 젤 잘 아는 ChatGPT를 예로 들겠지만, 다른 기업이나 오픈소스도 똑 같아. OpenAI가 오픈소스 기업이 아니기 때문에 추정을 할 뿐인데, 응, 그래도 엔지니어가 보면 대충 눈치까. 그래서 비공식이긴 하지만 거의 공식적이야.
오리지널 GPT4가 파라미터 1.7T(트릴리언)개 정도였어. 이거 학습시키고 돌리려면 GPU ㅅㅂ 조낸 쌓아놓고 몇 달 돌려야돼. 일반 기업은 꿈도 못꿔, GPU 클러스터 공장 수준으로 만들지 않으면. 근데 이제 시작이었지? 그러니 아직 한계 효용 상한에 닿기 전이니까 GPT2 -> GPT3 -> GPT 3.5 -> GPT4 로 계속 덩치를 불린 거야. 그렇게 성능도 폭발한 거고.
근데... 슬슬 한계에 부딛히기 시작해. 이후를 생각해보셔, GPT4가 얼마전 out of service 돼서 역사 속으로 사라졌는데(기껏 2년 여 만에, 빠르긴 빠르다...), 이후 GPT3.5 -> GPT4 수준의 혁명은 일어나지 않았어 사실.
Compute 만으로 성능을 키우기 어렵다는 걸 찔끔씩 느끼기 시작한 거야. 응, 그래서 짱구를 좀 굴리기 시작해. 여전히 transformer 아키텍처이긴 하지만 Mixture of Experts 같은 방식을 도입하기도 하고.
이게 타임라인이 좀 꼬이는데... OpenAI가 투명하질 않아서. GPT4도 MoE였다는 신빙성있는 썰이 있어. 공식적인 건 아냐. 근데 산수하면 좀 나오거든.
22 x 8 = 176.
22B(빌리언)짜리 전문가 모형을 8개 붙이면 대충 1.7T 파라미터니까. 가장 흔한 MoE가 8개 붙이는 거라.
MoE 간단하게 말하면, 해당 토큰 일처리를 가장 잘 할 작은 전문가 모형한테 일을 위임하고 그 결과를 받아서 퉁쳐주는 라우터 모형이라는 걸 두는 식이야. 네트워크 장비로 따지면 딱 그 라우터야. 토큰 트래픽을 분산하는 거지.
가장 큰 장점은 compute를 덜 먹어. MoE 모형 대부분이 active token이라는 걸 알려주는데, 가령 671B 모형인데 active는 37B다(DeepSeek R1)... 그럼 실제 한번에 compute를 소모하는 토큰 수는 37B라는 거야. 전체 엑스퍼트를 다 합치면 671B지만. 그래서 덩치에 비해 필요한 compute가 급격히 줄지.
인간이 짱구를 굴린 덕에 도구 의존도가 줄었다는 뜻이지?
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
응, 그 추세로 과거에는 모형 덩치빨(compute 의존도가 높은)로 밀어부치는 분위기였는데 지금은 그래도 아키텍처 최적화에 신경을 많이 쓰는 추세야. Compute 때려박는 것만으로는 한계에 부딛혔으니까. We've hit the wall 식의 표현을 쓰는 이유야, AI 씬쪽에서.
역시 비공식이지만 Claude 3.5 정도만 해도 175B라는 썰이 있어. 리버스 엔지니어링으로 알아낸 수치라고 하는데, 요즘 GPT-4o도 이 정도라고 하고. 거의 오리지널 GPT4의 1/10 수준이지?
간단해, 인간이 도구 의존도를 줄이고 '짱구'를 굴릴수록 최적화를 쥐어짤 수 있다는 뜻이야. 도구가 넘쳐나면 이 노력을 잘 안 하는 게 인간 습성이라는 뜻이기도 하고.
(게이머들이 질색하는 개적화 게임이 나오는 이유도 그 근본은... 응, 짱구는 안 굴리고 '글픽 카드 업글하세요~' 배짱으로 게임을 개발해서 그러는 거야.)
딥시크 충격이 이 뻔한 교훈을 살짝 되새겨주긴 했는데, 그래도 여전해.
중국쪽에서 짱구를 더 많이 굴려야 하는 이유는 뻔하잖아. 고성능 GPU 조달이 어렵거든. 미국이 수출을 규제하니까. 걔네 반쪽 짜리 GPU로 미국이랑 맞짱떠서 이겨내는 거야. 그럼, 첫째, 짱구만 굴려도 된다는 뜻이고, 둘째, 얘네가 온전한 GPU compute를 동원할 수 있으면 미국이랑 다이다이 붙어서 밟아줄 거란 뜻이기도 하지. 왜? 짱구는 더 좋아졌으니까.
근데... 아직도 시장엔 돈이 넘쳐나. 한번 편해지면 계속 편해지려는 게 평균적인 사람이라...
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
딥시크 충격 이후로도 시장에 나온 모형들을 보면, 그닥... 파격적으로 좋아지진 않았거든. 쥐어짜는 수준이지.
그러다 일반인한테는 잘 알려지지 않은 또 다른 기류가 포착됐는데...
오픈소스 LLM의 대명사 Llama 4가 사실상 망한 거야. GPU 클러스터 젤 많이 확충해 놓은 기업 중 하나가 메타거든. 대표적으로 compute 때려박아서 모형을 학습해 온 거야. 이게 Llama 3까진 통했는데, 4에서 삐끗한 거지. 한계효용의 법칙에 제대로 얻어맞은...
응, 나도 처음 나왔을때 Llama 4 매버릭이랑 스카우트 돌려보고, "뭐지? 왜 퇴보했지?" 그러고 다신 안 썼어. 원래 지금쯤 Behemoth 라는 Llama 4 초거대 모형이 나왔어야 하거든? 근데 내부적으로도 함량 미달이라는 걸 인정하고 폐기 수준이라는 거야. 그래서 팀이 거의 와해되다 시피했다고... 실제로 많이들 관뒀어.
그러고는 뭘 했을까? 마크 저커버그씨가? 응, '짱구' 사냥에 나섰어. 영어로 poaching이라고 해. 남의 회사에서 인재를 빼오는 거야. 오우 씨... 연봉이 100M 이야. 혹하지. OpenAI에서 낼름 오퍼 받아물고 옮겨간 친구들이 꽤 돼. 하다못해 애플도 뺐겼지? (근데 애플은 원래 제대로 하던 게 없는데...)
근데 poaching offer가 있으면 뺏기지 않으려고 matching offer를 해야해. 그걸 안 했다는 건... 둘 중 하나야. 돈이 모자라거나(OpenAI), 뺐겨도 그만이거나(애플)...
아주 중요한 시사점이라고 생각해, 개인적으로는. 메타가 이번에 한 짓이.
Compute 때려박아서는 더 답이 안 나온다는 거야. '짱구'를 쥐어짜야지.
근데 *개인적으로* 이게 왜 아쉽냐면...
여전히 답이 안 나오거든. 아직은 이 포칭 당한 '짱구'들도 널널한 compute 에 젖어있는 친구들이라... 지금까지는 뭐 놀았나. 다들 한 '짱구'하는 친구들인데. 그냥...
Abundance kills the want. 풍요와 안락에 젖는자, 꿈꾸지 않는다.
그런 거야. 아키텍처 혁신은 계속 중국 쪽에서만 나오는 이유야. 미국은 compute 풍요와 안락에 젖어있고.
이 현실이 완전히 타개되려면... 응, abundance가 사라져야 해. 그래야 want가 강렬해져서... 목이 말라서... ㅅㅂ 우물을 파게 돼.
이렇게 compute 가 널려 있는 상황에서는 '짱구'를 제대로 굴리기 어렵다는 거야.
간단해. 내가 지난 주에 제주 호텔방에서 M4 MacBook Pro 한대로 캐글 comp를 해야 했어. 집에는 compute가 남아돌지만, 현실 제약이 가해진 거지. 얼마나 답답했겠어? 응, 그래서 짱구를 조낸 굴렸다니까. 개인적으로 최고점인 0.295 모형이 그 호텔방에서 만들어진 거야. M4 MacBook Pro 하나로. GPU도 못 돌리는... 택시 속에서나 극장에서도 짱구를 굴릴 정도였어. (여기서 GPU는 CUDA, 그러니까 Nvidia GPU거든.) 그게 사람이야.
그래서 역시 *개인적으로* 지금 상황에서는 대단한 아키텍처 혁신은 기대난망이라고 생각해.
메타가 돈 엄청 뿌려서 인재를 poaching 해갔다지만, 돌려막기니까.
아, 중국에서 데려오면 되지 않냐고?
이 부분도 잘 모르는 분들이 많은데... 중화사상(Sinocentrism)이 아직도 강렬해. 자기들이 짱인 친구들이야, 이 세상 중심이고. 돈으로 잘 유혹이 안 되는 친구들이 많아 중국에... 실제로 딥시크 친구들 poaching하려는 시도가 있었는데, 싫다고 했대. 미국을 왜 가냐고...
*개인적으로* 한번쯤은 중국이 추월할 거라고 생각해. 이 추세로 가면... (사실, '짱구'만 놓고 보면 이미 추월당한 거고... 반쪽 짜리 compute로 해내는 건데, 요즘 중국쪽에서 나오는 기술과 모형들이...)
너~~~무 줌인만 해서 세상을 보면 큰 그림이 잘 안 보여. 또, 도메인(호라이즌)이 한정적이어도 잘 안 보이고. 여러 도메인을 퍼즐 조각처럼 이어봐야 제대로 보이거든.
물론, 대부분 소설이야. 원래 미래 예측이 소설쓰기 잖아.
단지, 가중 평균 시나리오일 뿐이야.
가능한 미래 A 시나리오: 30%
가능한 미래 B 시나리오: 70%
내가 준비하는 미래 = A x 0.3 + B x 0.7
뭐, 늘 강조하는 가중 평균 시나리오...
썰로 보셔. 재미로 보시고. 근데 나름대로 생각은 꼭 해보시고. 곧 닥칠 미래니까. 이미 슬그머니 다가온 현실이기도 하고.
곧 GPT-5 나온다고 하지?
Sam Altman(엑스에서는 대부분 Sama라고 해)이 힌트를 줬었는데... 라우터 모형일 가능성이 크다고. MoE의 변형일 수 있다는 거지. 지금은 GPT-4o, o1, o3, o3-mini, 뭐 이딴식으로 복잡하잖아? 그걸 GPT-5 하나로 퉁치겠다는 거야. 알아서 사용자 요구에 따라 적응하는 모형.
어찌보면 그럴듯한 소리지만, 나같은 사람은 그닥 좋아할 이유가 없는 방식이야. 진짜 그렇게 구현되면. 내가 원하는 high-end 모형을 내가 고를 수 없다는 거니까. 라우터 모형 판단에 오토로 따라야 하니까.
이건 나와 봐야 알겠지만, GPT-5가 나왔는데도, 걍걍 그렇다... 그럼 진짜 we've already hit the wall인 거야. 현재 transformer 아키텍처와 compute로는 더 이상 쥐어짜도 나올 게 거의 없다는 거지.
캐글에서도 comp를 하다보면 내가 만든 모형으로 쥐어짤 수 있는 점수의 한계에 도달하게 돼. 지금 내 Ariel Comp 점수가 0.295인데 LightGBM이라는 ML 모형 단독으로 쥐어짜낸 거야. 이 모형을 아무리 쥐어짜도 더는 안 나오더라고. 오히려 퇴보해. 그럼 이젠 인정할 때인 거지. 아... LighTGBM 같은 Decision-Tree Based 모형으로는(XGBoost도 마찬가지였거든)... We've hit the wall/ceiling.
다른 아키텍처를 고민해봐야 할 때라는 뜻이야. Compute? 응, 나만 해도 남아 돌아. RTX3090/4090 + M3 Ultra x 2, M2 Ultra x 2, M4 Max, M3 Max... Compute가 모자란 게 아니라 '짱구'가 부족한 거지. 이번 comp에서.
(살짝만 더 들어가면... 언뜻 CNN이나 Transformer 같은 DL 모형 쓰면 될 거 같잖아? 근데 이 comp는 학습 데이터가 많지 않아. 1100개 행성 뿐이야. 그래서 CNN만 해도 몇 epoch 안 돌아서 죄다 외워버려 답을. 과적합, overfitting, 쩐다는 거지. 그럼 실제 대회 lb score는 짤없이 0.000이야. 뭔 소리냐면... 데이터도 그만큼 중요하다는 거야. 모형의 복잡도가 증가할수록 더 중요해. 근데... 응, 이제 그 데이터도 바닥이야. 거의 모든 frontier model들이 거의 같은 품질인 이유도 이미 세상에서 바닥난 동일 데이터셋을 쓰기 때문이야. OpenAI의 o3가 그나마 좀 특출나 보이는 이유는 학술 데이터를 유난히 많이 학습한 덕분인 듯 하고. 얘가 영국 영어 쓰는 이유야. 응, 학술 데이터에 영국 액센트가 많아. 마이크로소프트가 Phi 시리즈 내놓으면서 공개적으로 GPT 사용해서 합성 데이터 만들어 학습시켰다고 까발렸어. 그만큼 데이터가 바닥이라는 거야. 근데... 이제 그 합성 데이터마저, 응, we've already hit the wall. 이래저래 벽에 부딛힌 거라고. 넘사벽.)
큰 그림을 고민해보시는 계기가 되길 바라.
당분간 마지막 글일 테니, 건강들 하시고. 아, 영어로는 계속 글 올려. 한글이 마지막이라는 거지.
굿럭.
---
진짜 마지막으로...
내가 무슨 소리를 해도, 주식 얘기겠거니... 테슬라나 일론이랑 상관이 있겠거니, 아전인수로 해석하는 분들이 여전히 많아. 그거 endowment effect/bias라니까, 아무리 지적을 해줘도 그마저도 억지들을 부리셔. 제발 문맥 틀지 말고 제대로 이해하셔.
난 현재 국내외 막론하고 그 어떤 기업도, 단 1주의 주식도 보유하고 있지 않아. 쓰잘데기 없는 오해 마셔.