2026 피지컬 AI 휴머노이드 대반전 한국 선점법

14–21 minutes

·

·

제조강국 한국, ‘피지컬 AI(Physical AI)·휴머노이드’에서 역전 가능한 진짜 이유

오늘 글에는 딱 3가지를 확실히 담았어요.
1) 왜 장병탁 교수가 “LLM은 사상누각”이라고까지 말하는지, ‘기술적 한계’의 본질
2) 왜 한국이 피지컬 AI·휴머노이드에 구조적으로 유리한지(제조·부품·인프라 관점에서)
3) 2026~2030 골든타임에 한국이 “진짜로 선점해야 할 체크리스트”와, 뉴스/유튜브에서 잘 안 다루는 핵심 포인트


1) 한 줄 뉴스: “2026년 화두는 피지컬 AI… AI가 화면 밖으로 나온다”

국가 인공지능 전략 논의의 다음 키워드가 ‘피지컬 AI’로 이동하고 있어요.
장병탁 교수는 2025년이 “AI 에이전트 산업화가 시작된 해”였다면, 2026년은 “AI가 디지털(텍스트/이미지)에서 현실 세계로 넘어오는 전환점”이라고 봅니다.

2) 왜 LLM이 ‘훌륭하지만 한계’인가: “글자만 공부한 지능” 문제

핵심은 이거예요.
LLM은 텍스트와 이미지 중심 데이터로 세상을 ‘말로만’ 배운 지능이라는 점.
그래서 “마이크”라는 단어가 들어간 문장을 아무리 많이 읽어도, 실제 마이크를 만져보고 소리를 들어보고 사용해본 경험이 없으면 ‘진짜 이해’와는 거리가 생깁니다.

이 간극이 커질수록 나타나는 현상이 대표적으로 ‘환각(hallucination)’이고요.
디지털 업무에서는 “그럴듯한 거짓말”로 끝나도, 피지컬 AI에서는 “행동 사고”로 이어질 수 있어서 리스크가 차원이 달라집니다.

3) 피지컬 AI가 ‘궁극의 AI’로 불리는 이유: AI의 적용 시장이 바뀐다

지금까지 AI가 잘하던 건 문서 작성, 요약, 이미지 생성처럼 “컴퓨터 안에서 끝나는 작업”이었죠.
그런데 피지컬 AI는 “물 좀 갖다줘”, “창고에서 박스 옮겨줘”, “위험한 설비 감시해줘”처럼 현실 세계의 노동·서비스를 직접 수행합니다.

이게 의미하는 건 단순히 기술 트렌드가 아니라, 산업 구조 자체가 바뀐다는 거예요.
AI가 침투하는 시장이 ‘소프트웨어 구독 시장’에서 ‘실물 산업(제조·물류·건설·돌봄)’로 확장됩니다.
이 흐름은 생산성 혁신과 맞물리면서 중장기 경제성장률에도 영향을 줄 수 있는 포인트고요.


4) 2025년은 ‘에이전트’, 2026년은 ‘피지컬’… 기업 현장은 어디까지 왔나

장병탁 교수의 평가는 비교적 현실적이에요.
국내도 AI 에이전트는 “이미 시작됐다”.
다만 모든 업무로 확산되기까지는 시간이 더 필요하고, 특히 스타트업·중소기업은 구축 난이도를 크게 느낀다는 관찰이 나옵니다.

5) 중소기업/스타트업이 막히는 지점: “에이전트는 결국 인프라 게임”

현장에서 에이전트가 어려운 이유는 세 가지로 정리됩니다.

1) 데이터·업무 프로세스가 정리돼 있지 않다
2) 클라우드/컴퓨팅 자원이 부족하다
3) 개발·운영 인력이 없다

그래서 정부 역할에 대해 장 교수는 “정부가 플랫폼을 직접 만들기보다, 에이전트를 잘 만드는 소프트웨어 회사를 키우고 인프라(클라우드/컴퓨팅)를 지원하는 방식이 더 맞다”는 쪽에 무게를 둡니다.


6) 한국이 휴머노이드 산업화에 유리한 구조적 이유: ‘자동차 산업 같은 종합전’

장병탁 교수가 반복해서 강조한 문장이 있어요.
“휴머노이드는 자동차 산업처럼 다양한 부품 산업이 함께 발전해야 한다.”

여기서 한국의 강점이 꽤 명확히 정리됩니다.

6-1) 하드웨어 밸류체인의 밀도

반도체, 배터리, 센서, 모터/액추에이터, 소재, 정밀가공, 생산 자동화까지.
한국은 “로봇을 대량으로 만들 수 있는 제조 기반”이 이미 깔려 있습니다.
이건 AI 모델만으로는 못 만드는 경쟁력이고, 공급망(Supply Chain)을 통째로 움직일 수 있는 나라가 유리해지는 구간이에요.

6-2) ICT 인프라 + 제조 현장의 결합

피지컬 AI는 소프트웨어만 잘한다고 끝이 아니라, 현장에서 센서 데이터가 들어오고 시스템이 연결돼야 합니다.
즉, 통신/엣지/클라우드/보안이 ‘현장 적용’과 같이 가야 하는데 한국은 이 조합이 강한 편이죠.

6-3) “인프라를 바꾸는 로봇”에서 “환경에 적응하는 로봇”으로

기존 공장 자동화는 로봇을 위해 공장을 바꾸는 방식이 많았습니다.
하지만 휴머노이드는 사람이 만든 환경에서 사람처럼 일하는 것이 목표라, 공장/창고를 뜯어고치는 비용을 줄일 수 있어요.
이게 산업적 확산 속도를 크게 올리는 논리입니다.


7) 기술의 핵심 난제: ‘월드 모델(World Model)’과 상식의 부재

휴머노이드가 진짜 어려운 지점은 “상식 물리”입니다.
예를 들어 컵을 들기 전에 “이 각도로 잡으면 넘어질 수 있다”, “쏟아질 수 있다” 같은 예측을 해야 해요.
인간은 당연히 아는 이 상식을 AI는 아직 부족합니다.

결국 필요한 건 ‘월드 모델’—세상이 어떻게 움직이고, 힘이 어떻게 전달되고, 결과가 어떻게 나올지 내재적으로 시뮬레이션하는 능력입니다.
이게 갖춰져야 휴머노이드가 안전하고 자연스럽게 움직일 수 있어요.


8) 합성 데이터가 왜 중요해지나: 피지컬 AI는 “데이터를 모으기 어렵다”

인터넷 텍스트/이미지처럼 공개 데이터가 풍부한 영역과 달리, 물리 상호작용 데이터는 모으기가 비쌉니다.
시간도 오래 걸리고, 반복 실험도 필요하죠.

그래서 장 교수는 합성 데이터(시뮬레이션 기반 데이터 생성)의 중요성을 강하게 봅니다.
예: 컵을 인식하는 장면을 다양한 책상/조명/각도로 변형해 “있을 법한 경우의 수”를 대량으로 만들어 학습시키는 방식.

이건 단순히 ‘데이터를 늘린다’가 아니라,
현장 실험 비용을 낮추고 학습 속도를 올려 “산업화 타임라인을 당기는 장치”가 됩니다.


9) 베이비 마인드(Baby Mind) 관점: “한 번에 학습”이 아니라 “시간을 따라 성장”해야 한다

장병탁 교수가 흥미롭게 던지는 포인트는 여기예요.
기존 파운데이션 모델은 데이터를 한꺼번에 먹고 ‘완성형’처럼 나오는데,
인간은 시간 흐름 속에서 경험을 누적하며 발달합니다.

베이비 마인드 프로젝트는 “아이의 인지 발달(특히 18개월까지)”을 모델링해서,
AI도 경험을 통해 점진적으로 세계를 이해하도록 만들려는 접근입니다.
이 관점은 피지컬 AI랑 잘 맞아요.
왜냐면 피지컬 AI는 ‘경험의 축적’이 곧 성능이기 때문이죠.


10) 피지컬 AI의 환각(상상력) 문제: “행동 안전”은 별도 레이어가 필요하다

장 교수는 환각을 한편으로 “상상력”이라고도 봅니다.
하지만 로봇이 상상력을 행동으로 옮기면 위험해질 수 있으니, 통제/안전 장치가 필수라고 말하죠.

흥미로운 비유가 있어요.
아이들이 뜨거운 걸 만져보고 위험을 학습하듯, 로봇도 시행착오와 피드백(“그건 하지 마”)을 통해 안전 행동을 학습해야 한다는 것.
결국 피지컬 AI는 ‘성능’과 ‘안전’이 같이 학습되는 형태로 갈 가능성이 큽니다.


11) 한국의 ‘골든 타임’ 논리: 왜 지금이 마지막 기회가 될 수 있나

언어/시각 중심의 거대 모델 경쟁은 미국 빅테크가 30~40년 데이터·클라우드·플랫폼 축적을 기반으로 우위를 가져갔습니다.
한국이 늦었다는 진단도 이 맥락이고요.

그런데 피지컬 AI는 글로벌도 아직 출발선이 크게 벌어지지 않았고,
한국은 제조 기반이라는 “다른 무기”가 있습니다.
여기서 빠르게 투자하고 생태계를 만들면, 향후 30~50년을 선도할 수도 있다는 판단이죠.


12) 뉴스형 정리: 이번 대담에서 나온 핵심 메시지 TOP 라인

– 2025년: AI 에이전트가 기업 업무에 본격 침투 시작
– 2026년: 피지컬 AI가 국가/산업 화두로 부상, AI가 현실로 이동
– LLM의 한계: 텍스트/이미지 중심 학습 → 실세계 이해 부족 → 환각/현장약점
– 휴머노이드 = 자동차급 패러다임 시프트(부품산업 동반 성장)
– 한국 강점: ICT 인프라 + 반도체 + 배터리 + 제조 밸류체인 결집
– 합성 데이터/시뮬레이션이 피지컬 AI 산업화 속도 좌우
– 월드 모델(상식 물리) 확보가 기술적 승부처
– 인재: 소프트웨어+기계/로보틱스 융합형이 필요


13) 다른 유튜브/뉴스에서 잘 안 짚는 “가장 중요한 포인트” (내 관점)

13-1) 피지컬 AI는 ‘AI 산업’이 아니라 ‘거시경제(Real Economy) 산업’이다

많은 콘텐츠가 “휴머노이드 멋있다”에 머무는데,
진짜 핵심은 휴머노이드가 들어가는 순간 AI가 서비스업·제조업 생산성에 직접 연결된다는 점입니다.
이건 장기적으로 인플레이션 압력(인건비/서비스 단가)과 생산성, 그리고 경제성장률에 영향을 줄 수 있어요.
결국 피지컬 AI는 기술 트렌드라기보다 산업 혁신의 도구입니다.

13-2) 승부는 ‘모델 성능’보다 “데이터 플라이휠 + 현장 배치 속도”에서 갈린다

피지컬 AI는 배치(Deployment)하면 데이터가 쌓이고,
데이터가 쌓이면 성능이 오르고,
성능이 오르면 더 많은 배치가 가능한 플라이휠 구조로 갑니다.
즉, 늦게 시작하면 격차가 급격히 벌어질 수 있어요.
이 지점이 장 교수가 말한 ‘골든 타임’의 실체라고 봅니다.

13-3) 한국의 진짜 강점은 ‘개별 기술’이 아니라 “조립·통합·양산하는 국가 역량”이다

미국은 소프트웨어 플랫폼에 강하고,
중국은 물량/속도에 강한데,
한국은 “품질을 유지하면서 양산 가능한 통합 역량”이 장점이 될 수 있습니다.
휴머노이드는 부품 하나만 잘해서 되는 게 아니라, 신뢰성 있게 통합해 대량 공급해야 시장을 먹습니다.
이건 한국 제조업이 가장 잘하던 게임이죠.

13-4) 정책의 포인트는 ‘로봇 한 대’가 아니라 “국가 단위 테스트베드”다

정부가 플랫폼을 직접 만들지 말고 생태계를 지원하라는 말은,
결국 민간이 빨리 실험하고 배치할 수 있는 테스트베드(물류센터, 공장, 공공시설)를 열어주는 게 더 중요하다는 뜻으로 확장됩니다.
피지컬 AI는 규제/안전/책임 소재까지 얽혀서, 테스트 환경 설계가 곧 경쟁력이 됩니다.


14) 2026~2030 한국이 선점해야 할 체크리스트(현실 버전)

1) 로봇/휴머노이드 파운데이션 모델 + 월드 모델 R&D를 “현장 데이터”와 묶기
2) 합성 데이터 파이프라인(시뮬레이션 → 학습 → 검증) 표준화
3) 안전/통제 AI(행동 안전, 작업 안전, 책임 추적) 레이어를 조기에 산업 표준으로 만들기
4) 반도체·배터리·센서·모터 기업이 참여하는 공동 로드맵(자동차 산업처럼 Tier 구조 정립)
5) 융합형 인재 트랙(컴공×기계×제어×인지과학)과 현장 실습 중심 커리큘럼 확대

이 흐름은 단기 테마가 아니라, 중장기적으로 글로벌 공급망과 맞물린 성장 스토리로 커질 가능성이 큽니다.
(관심 있게 보는 키워드: 금리, 인플레이션, 환율, 글로벌 공급망, 경제성장률)


< Summary >

LLM은 텍스트/이미지 중심 학습으로 ‘현장 이해’에 한계가 있고, 피지컬 AI는 경험 기반 학습으로 그 한계를 메우는 패러다임 전환이다.
휴머노이드는 자동차 산업처럼 부품·제조·ICT가 함께 커지는 종합전이며, 한국은 반도체·배터리·제조 밸류체인 덕분에 구조적으로 유리하다.
승부처는 월드 모델(상식 물리), 합성 데이터 파이프라인, 그리고 현장 배치 속도(데이터 플라이휠)다.
2026~2030은 테스트베드·안전표준·융합 인재를 선점하는 나라가 장기 주도권을 가져갈 가능성이 크다.


[관련글…]


“GPU는 샀는데, 쓸 곳이 없다?” 2026년 한국 AI가 ‘멘붕’에 빠진 진짜 이유와, 지금부터 잡아야 할 5년짜리 승부수

오늘 글에는 아래 핵심이 다 들어가요.

① 왜 한국은 AI에서 ‘벤치마킹 모델’이 사라졌는지(=답안지가 없는 시험이 됨)

② 왜 “GPU 확보”가 끝이 아니라 ‘시작’인데도, 한국은 특히 더 위험한지(전력·데이터센터·수요의 역설)

③ 검색의 시대가 끝나고 “대화(에이전트) 기반 인터넷”이 열릴 때, 누가 돈을 벌고 누가 무너지는지

④ 빅테크 5대장 중 ‘애플·메타’가 위험하다는 주장에 숨은 산업 구조 변화

⑤ 한국이 AI에서 이길 수 있는 현실적인 한 방: 피지컬 AI(로봇·제조 데이터)라는 ‘잠금 가능한 데이터 자산’


1) 뉴스 브리핑: “AI 시대 한국 멘붕”의 정체

1-1. 벤치마킹이 막혔다: 따라갈 ‘정답’이 사라진 시대

김대식 교수의 문제 제기는 간단해요.

과거 한국의 산업 성장 방식은 “선진국이 이미 해본 것”을 빠르게 흡수하는 패스트 팔로워 전략이었고, 이게 통했죠.

그런데 AI는 이제 ‘산업별 적용(AI X)’이 핵심인데, 금융AI·교육AI·콘텐츠AI 같은 건 아직 누구도 정답을 모르는 영역이 됐습니다.

즉, “우리가 따라가면 되는 성공 사례”가 아직 정립되지 않았고, 그게 리더십(정치·기업)에 심리적 패닉을 준다는 거죠.

1-2. 패스트 팔로워가 더 어려워진 3가지 구조적 이유

(1) AI는 속도가 다르다

AI에서 5년 격차는 제조업의 50년에 가깝게 벌어질 수 있다는 이야기.

기술 사이클이 너무 짧아서, “좀 늦게 따라가도 된다”가 안 통합니다.

(2) 세계화가 끝나고 ‘각자도생’이 시작됐다

예전 캐치업은 유학생·라이선스·시장개방 같은 ‘가르쳐주는 환경(세계화)’이 있었기에 가능했는데, 지금은 기술이 곧 안보·패권이라 공유가 줄어드는 방향.

이 흐름은 글로벌 공급망 재편, 보호무역, 기술 블록화 같은 거시경제 변화와 딱 맞물려요.

(3) ‘헝그리’ 방식의 장시간 노동 드라이브는 재현 불가능

과거는 개인의 삶을 갈아 넣어 시간 격차를 줄였는데, 지금 세대에게 동일한 방식은 사회적으로도, 경제적으로도 지속 불가능.


2) “GPU 26만 장”이 축복이 아니라 리스크가 되는 이유

2-1. GPU는 엔진이고, 차체(데이터센터·전력·서비스)가 없다

원문에서 가장 날카로운 대목 중 하나가 이거예요.

GPU는 자동차 엔진 같은데, 엔진만 잔뜩 있다고 차가 굴러가지 않죠.

한국이 GPU를 대규모로 확보해도, 그걸 굴릴 데이터센터·전력·냉각·운영 인력·네트워크·보안 체계가 같이 안 가면 “자산이 아니라 비용”이 됩니다.

2-2. 전력과 데이터센터 CAPEX: ‘숨은 청구서’가 본게임

대규모 데이터센터는 결국 전력 먹는 하마예요.

원문에서는 “원전 2기급 전력” 같은 표현이 나오고, 1GW급 데이터센터 비용이 수십조 단위로 거론됩니다.

핵심은 GPU 구매 비용보다, 운영 인프라(전력·부지·냉각·운영) 비용이 더 무겁게 들어온다는 것.

이건 국내 AI 산업정책, 재정지출, 에너지 정책과 직결되고, 장기적으로는 인플레이션 압력(전력단가·건설비)과도 연결될 수 있어요.

2-3. 더 큰 문제: 한국은 “GPU 수요(킬러 서비스)”가 약하다

미국은 오픈AI·구글·메타·아마존 등 초대형 서비스가 이미 GPU를 태우고 있어요.

그래서 데이터센터가 부족하면 “바로 매출 손실”로 이어지고, 투자를 정당화하기 쉽습니다.

반면 한국은 “GPU를 써서 돈 버는 서비스”가 상대적으로 얇아요.

그래서 한국은 역설적으로 인프라를 깔면서 동시에 수요를 만들어야 하는 매우 난이도 높은 게임에 들어간 겁니다.


3) ‘검색의 시대’ 종료: 인터넷 비즈니스 룰이 바뀐다

3-1. 대화형 AI가 앱을 “켜고, 결제하는” 시대의 의미

원문에서는 10월 6일 개발자 행사 언급과 함께, AI가 앱을 실행하고 결제까지 이어지는 시나리오가 나옵니다.

여기서 중요한 포인트는, 사용자는 더 이상 “앱을 찾는 것”이 아니라 “문제를 말로 던지는 것”만 하게 된다는 거예요.

그럼 무슨 일이 벌어지냐면,

검색창 기반의 트래픽(광고) 모델이 흔들리고, 에이전트가 실제 구매·예약·구독을 중개하는 구조로 이동합니다.

3-2. 광고/커머스의 권력이 ‘검색’에서 ‘에이전트’로 이동

지금까지는 SEO와 검색광고가 온라인 경제의 핵심 파이프라인이었죠.

그런데 에이전트가 “최적의 해결책”을 대화로 골라주면, 사용자가 검색 결과를 10개 비교할 이유가 줄어듭니다.

이 변화는 디지털 플랫폼 경쟁 구도를 바꾸고, 장기적으로는 빅테크 주가(특히 광고 비중 큰 기업)의 밸류에이션에도 영향을 줄 수 있어요.


4) 빅테크 ‘절반은 사라질 수 있다’는 주장, 어떻게 봐야 할까

4-1. 애플이 위험하다는 말의 본질: “디바이스 중심 권력”의 약화

애플이 내일 망한다는 얘기가 아니라,

AI 시대에 가치의 중심이 하드웨어 폼팩터가 아니라 “지능(모델) + 에이전트 경험 + 생태계 중개권”으로 옮겨갈 수 있다는 경고로 읽는 게 맞아요.

스마트폰 이후의 다음 인터페이스(안경, 음성, 에이전트)가 열리면, 기존 강자의 해자가 약해질 수 있죠.

4-2. 메타가 위험하다는 말의 본질: “투자 규모”보다 “제품-수요 연결”

원문에서는 메타가 데이터센터에 초대형 투자를 하지만,

단기적으로 이를 회수할 확실한 디바이스/서비스 연결고리가 약하다고 봅니다.

즉 ‘기술 투자’가 아니라 ‘수요를 일으키는 제품’이 더 중요하다는 주장입니다.

4-3. 엔비디아도 패권이 영원하지 않다: 단일 품목 의존 리스크

GPU에 매출이 과도하게 집중된 구조에서,

연산 효율 혁신(예: “계산량 1/100 가능” 같은 내러티브)만 떠도 시장이 흔들립니다.

이건 기업의 문제가 아니라, AI 인프라 산업 자체가 ‘기대(내러티브) 기반’으로 밸류가 출렁일 수 있다는 뜻이에요.


5) 다른 유튜브/뉴스가 잘 말 안 하는 “진짜 중요한 포인트”

5-1. 한국의 정답은 “모델 개발 경쟁”이 아니라 “잠글 수 있는 데이터”다

대부분 콘텐츠는 “한국도 LLM 만들어야”로 끝나요.

그런데 원문에서 더 현실적인 포인트는 따로 있어요.

피지컬 AI(로봇·제조)로 가면, 한국은 ‘인터넷에 없는 데이터’를 만들 수 있다는 겁니다.

LLM은 공개 인터넷 데이터 기반이라 결국 다들 따라옵니다.

하지만 제조 현장 숙련공의 작업 데이터(용접, 조립, 검수, 라인 운영)는 지금까지 디지털화가 덜 돼 있고, 국가/기업이 ‘소유·암호화·거래’할 수 있는 전략 자산이 될 수 있어요.

5-2. “제조업이 남아있는 나라”가 AI 후반전에 유리해질 수 있다

그동안 제조업 비중이 큰 건 “구조 전환이 늦다”는 약점으로 많이 얘기됐죠.

그런데 로보틱스/피지컬 AI 시대에는 반대로 강점이 됩니다.

왜냐면 로봇은 수식(제어)만으로 한계가 있고, 결국 학습(데이터)로 넘어가고 있거든요.

즉, 숙련공이 많은 곳이 ‘학습 데이터 생산 능력’이 높습니다.

5-3. 한국이 지금 당장 할 일은 “GPU 확보”가 아니라 ‘데이터 생산 라인’ 구축

GPU는 돈으로 살 수 있어요.

하지만 고품질 현장 모션 데이터 + 작업 표준 + 실패/예외 케이스 데이터는 돈만으로 바로 안 생깁니다.

그리고 숙련공 은퇴는 시간 제한이 있는 이벤트예요.

이 관점에서 “앞으로 5년이 중요하다”는 말이 훨씬 더 무섭고 현실적으로 들립니다.


6) 실전 가이드: 개인/기업/정부가 이번 주말부터 할 수 있는 액션

6-1. 개인: ‘바이브 코딩’으로 업무 자동화 감각부터 잡기

원문에서 말한 것처럼, 요즘은 말로 앱/도구를 만드는 단계까지 내려왔어요.

개인이 할 수 있는 최고의 투자는 “AI를 읽는 능력”이 아니라 “AI로 반복업무를 쪼개서 붙이는 능력”입니다.

업무에서 자주 쓰는 보고서 템플릿, 데이터 정리, 메일 초안, 회의록 구조화부터 자동화해보면 체감이 빨라요.

6-2. 기업: ‘신입=교육’ 모델이 흔들리는 만큼, 견습형 인재 시스템 재설계

AI가 초급 업무를 대체하면, 기업 입장에선 “교육비를 누가 부담하냐”가 다시 문제가 됩니다.

결국 사내 교육체계는 단순 복지나 HR이 아니라, 생산성/수익모델의 일부로 재설계가 필요합니다.

6-3. 정부/산업: 피지컬 AI 데이터 국책 프로젝트가 최우선

제조 강국의 이점을 살리려면,

산업현장 모션 데이터 수집 표준화, 장비(고글/센서), 보안/소유권, 데이터 거래 규칙까지 “데이터 인프라”를 국가 단위로 깔아야 합니다.

이게 되면 한국은 단순 AI 수입국이 아니라, AI 공급망에서 협상력이 생깁니다.

결국 기술패권 경쟁에서 ‘카드’가 생기는 거죠.


7) 거시경제 관점: 이 흐름이 투자/산업에 주는 신호

이 이슈는 단순 기술 트렌드가 아니라,

금리, 인플레이션, 글로벌 공급망 재편, 반도체 투자, 데이터센터 전력 수요 같은 매크로 변수를 한 번에 건드립니다.

특히 데이터센터 증설은 전력/부지/건설/자본조달과 연결돼서, 중장기적으로 산업정책과 자본시장(밸류에이션, CAPEX 사이클)까지 흔들 가능성이 큽니다.


< Summary >

한국이 AI에서 멘붕인 이유는 “답안지를 베끼는 캐치업 모델”이 AI X 시대에 통하지 않기 때문이다.

GPU 확보는 시작일 뿐이고, 데이터센터·전력·운영·킬러서비스가 없으면 오히려 리스크가 된다.

검색 기반 인터넷이 대화/에이전트 기반으로 바뀌면, 플랫폼 권력과 돈 버는 방식이 재편된다.

빅테크도 영원하지 않고, 디바이스·광고·단일품목 의존 기업은 흔들릴 수 있다.

한국의 승부수는 LLM 자체보다 “제조 현장의 피지컬 AI 데이터”를 빨리 만들어 잠글 수 있는 전략자산으로 만드는 것이다.


[관련글…]


DeepSeek mHC가 ‘빅테크 스케일링 공식’을 흔든 이유: 비용은 6~7%만 늘리고, 모델 내부 용량은 4배로 키운 설계 혁신

오늘 글에는 아래 핵심이 다 들어있어요.
DeepSeek가 왜 “모델을 더 크게” 말고 “정보 흐름을 더 넓게”라는 새 스케일링 축을 열었는지.
기존 잔차 연결(Residual Connection)이 왜 10년 넘게 사실상 ‘정답’처럼 굳어졌는지.
하이퍼커넥션이 왜 좋아 보이다가 대형 학습에서 갑자기 폭발하는지.
mHC(Manifold-Constrained Hyper-Connections)가 그 폭발을 ‘수학적으로’ 막는 방식이 뭔지.
그리고 이게 AI 산업, GPU 공급, 데이터센터 투자, 반도체 수급 같은 거시 흐름(인공지능 투자, 글로벌 경제 전망, 금리 인하, 반도체 공급망, 생성형 AI)과 어떻게 연결되는지까지 정리할게요.


1) 뉴스 브리핑: DeepSeek, “더 큰 모델” 대신 “더 넓은 정보 흐름”으로 성능을 올리다

DeepSeek가 mHC라는 아키텍처를 공개하면서, AI 스케일링의 전제를 하나 뒤집었어요.
지금까지는 레이어/파라미터/데이터를 늘려서 성능을 올리는 흐름이 주류였죠.
그런데 DeepSeek는 “모델 내부에서 정보가 오가는 길(잔차 스트림)을 여러 갈래로 넓히고, 대신 안정성을 수학적 제약으로 고정한다”라는 접근을 내놨습니다.

핵심 메시지는 이거예요.
추론 성능이 필요한 구간에서는 ‘모델 크기 확대’보다 ‘내부 작업공간(working space) 확장’이 더 가성비가 좋을 수 있다.


2) 배경: 왜 Residual Connection(잔차 연결)이 현대 AI의 ‘인프라’가 됐나

대형 언어모델은 레이어를 깊게 쌓을수록 학습이 어려워져요.
정답에서 멀어지면 역전파(gradient)가 뒤로 흐르며 수정해야 하는데, 깊어질수록 신호가 사라지거나(gradient vanishing) 폭발(gradient explosion)합니다.

Residual connection은 “지름길”을 만들어서 이 문제를 크게 해결했죠.
정보가 레이어를 통과하면서 왜곡되지 않게, 그리고 학습 신호가 안정적으로 흐르게 해줍니다.
그래서 딥러닝이 어느 순간부터 “깊게 쌓아도 안정적으로 학습”이 가능해졌고요.

문제는 트레이드오프예요.
안정성은 얻었는데, 정보가 오가는 통로가 사실상 ‘단일 스트림’으로 고정되면서 내부 유연성이 제한됐습니다.
처음엔 모델을 크게 키우면 다 해결됐지만, 어려운 추론 과제로 갈수록 이 단일 통로가 병목이 되기 시작한 거죠.


3) 기존 시도: Hyper-Connections(하이퍼커넥션)는 왜 “잘 되다가” 대형 학습에서 망가졌나

그래서 나온 아이디어가 하이퍼커넥션이에요.
단일 잔차 스트림 대신, 여러 개의 병렬 스트림을 두고 서로 섞이게 해서 내부 통신량을 늘리자는 거죠.
이론적으로는 모델 내부 작업공간이 커져서 다단계 추론, 정보 조합에 유리합니다.

그런데 실패 패턴이 치명적이었어요.
초반엔 loss도 잘 내려가고 좋아 보이는데, 어느 시점부터 스트림 간 상호작용이 누적되며 신호가 증폭됩니다.
그러다 갑자기 그래디언트가 폭발하고 학습이 “한 번에” 붕괴해요.

이게 왜 큰 문제냐면요.
대규모 학습은 비용이 엄청나고, 수만~수십만 스텝을 돌린 뒤에 갑자기 터지면 디버깅이 사실상 불가능합니다.
그래서 하이퍼커넥션은 “가능성은 있는데, 대형 상용 학습에서 리스크가 너무 큰 구조”로 남아 있었어요.


4) 핵심 기술: mHC(Manifold-Constrained Hyper-Connections)는 “섞되, 절대 증폭시키지 못하게” 만든다

mHC는 하이퍼커넥션의 ‘방향’은 인정하되, 실패 원인을 정면으로 제압합니다.
포인트는 스트림을 섞는 “믹싱 행렬”에 강한 제약을 걸어버린 거예요.

DeepSeek 방식은 간단히 말하면 이렇습니다.
여러 스트림이 정보를 주고받을 수는 있지만, 전체 신호의 총량(크기)은 일정하게 유지되도록 강제한다.
그래서 정보는 “재분배”되지만 “증폭/감쇠”는 못 하게 막아요.

구체적으로는 믹싱 행렬이 아래 조건을 만족하도록 제한합니다.
각 행의 합 = 1, 각 열의 합 = 1.
이 조건이 유지되면, 레이어를 여러 번 곱해도 전체 크기가 갑자기 튀기 어려운 구조가 됩니다.

그리고 이 제약을 구현하기 위해 Sinkhorn-Knopp 알고리즘으로 행렬을 특정 기하 공간(버코프 폴리토프, Birkhoff polytope)로 사영(projection)합니다.
여기서 중요한 건 “튜닝으로 어찌어찌 버티는 안정성”이 아니라,
구조적으로 안정성이 보장되는 형태로 학습을 ‘가둬버린다’는 점이에요.


5) 벤치마크 성능: “추론에서 확실히 오른다”가 핵심

DeepSeek는 3B, 9B, 27B 모델로 실험했고, 표준 하이퍼커넥션 대비 mHC가 8개 벤치마크에서 일관되게 우세했다고 설명합니다.
특히 추론 과제에서 점프 폭이 큽니다.

원문 기준 수치(27B 모델)로 보면:
GSM8K(수학 추론): 46.7 → 53.8
BBH(논리 추론): 43.8 → 51.0
MMLU(일반 지식): 59.0 → 63.4

이 정도 상승은 “자잘한 개선”이 아니라, 모델 체급이 커질수록 얻기 어려운 수준의 업사이드로 받아들여질 수 있어요.


6) 비용/하드웨어: 내부 용량 4배인데, 학습 오버헤드는 6~7% 수준

여기서 산업적으로 가장 ‘돈 되는’ 포인트가 나옵니다.
스트림을 늘리면 보통 메모리 트래픽과 GPU 부담이 급격히 커져요.
즉, 성능은 오르는데 학습비용이 폭증하는 방향으로 가기 쉽죠.

DeepSeek는 이 부분을 엔지니어링으로 눌렀다고 주장합니다.
커스텀 GPU 커널(tilelang)로 연산을 fused해서 메모리 왕복을 줄이고,
Selective recomputation으로 VRAM 사용량을 낮추고,
Dualpipe 스케줄링으로 통신과 연산을 겹쳐(오버랩) 병목을 숨겼습니다.

결과적으로 “유효 내부 폭 4배 확장”에 비해 학습 시간 증가는 약 6.7%, 하드웨어 오버헤드는 약 6.27% 수준이라고 제시해요.
이건 요즘 말 많은 ‘메모리 월(memory wall)’ 압박을 꽤 영리하게 우회한 케이스로 해석할 수 있습니다.


7) 시장/거시경제 관점: 이게 왜 글로벌 경제와 반도체 사이클에 연결되나

AI는 지금 “더 큰 모델” 경쟁이 GPU 수급과 데이터센터 CAPEX를 과열시키는 구조였어요.
그런데 mHC 같은 접근이 의미 있는 이유는, 다음 시나리오를 열기 때문입니다.

시나리오 A: 같은 GPU로 더 높은 추론 성능
GPU가 부족하고 비싼 구간에서, 모델 규모를 무작정 키우는 전략은 비용 부담이 큽니다.
mHC가 확산되면, “총 파라미터를 덜 늘리고도” 추론 성능을 끌어올릴 옵션이 생겨요.
이건 데이터센터 투자 효율과 직결됩니다.

시나리오 B: 금리/유동성 환경과 AI 투자 전략 변화
시장에서는 금리 인하 기대가 살아나면 성장주/AI 인프라 투자 심리가 다시 세질 수 있는데,
동시에 “GPU를 얼마나 더 사야 하냐”는 불확실성도 큽니다.
mHC처럼 ‘스케일링의 축을 바꾸는’ 기술은 CAPEX의 방향(더 많은 칩 vs 더 효율적인 학습 스택)을 재조정하게 만들 수 있어요.

시나리오 C: 반도체 공급망과 중국 AI의 전략
원문에서도 칩 부족이 중국 랩들의 접근을 바꿨다고 언급하죠.
mHC는 “칩이 부족하면, 설계/스택 혁신으로 우회한다”는 흐름과 딱 맞물립니다.
결국 반도체 공급망 제약이 ‘모델 아키텍처 혁신’을 촉진하는 역설이 생기는 거예요.


8) 다른 뉴스/유튜브가 잘 말 안 하는 ‘진짜 중요한 포인트’

여기부터가 핵심인데, 보통 영상 요약에서는 잘 빠져요.

1) mHC의 본질은 “새 레이어”가 아니라 “리스크 모델링의 변화”
대형 학습에서 제일 무서운 건 평균 성능이 아니라 “후반 붕괴 확률”입니다.
mHC는 성능 향상도 있지만, 더 큰 가치는 학습 붕괴를 구조적으로 차단해 대형 런의 리스크를 낮추는 것에 있어요.
이건 연구팀이 아니라 CFO/인프라팀 관점에서 특히 큽니다.

2) ‘스케일링 법칙’ 논쟁이 “데이터/파라미터”에서 “내부 대역폭”으로 이동할 가능성
지금까지는 스케일링 법칙을 파라미터/데이터/컴퓨트로 설명했는데,
mHC는 “모델 내부 통신 대역폭”이라는 새 축을 현실적인 비용으로 열어버립니다.
이게 재현되면, 업계 실험의 무게중심이 아키텍처 쪽으로 한 번 더 이동할 수 있어요.

3) 오픈 공개의 전략적 의미: 모델이 아니라 ‘표준’을 노린다
이런 코어 아이디어를 공개하는 건 단순한 친절이 아니라,
“우리가 다음 설계 표준의 한 축을 선점하겠다”는 메시지일 수 있어요.
표준화되면 생태계(프레임워크/커널/분산학습 툴)도 그쪽으로 최적화가 붙고,
그러면 뒤늦게 따라오는 쪽이 오히려 비용이 커집니다.

4) ‘모델 배포/유통’이 기술 혁신을 이길 수도 있다
원문에서도 서구 시장에서 DeepSeek 업데이트가 덜 주목받는 이유로 “distribution”을 말하죠.
즉, 기술이 좋아도 사용자가 만나는 채널(제품/플랫폼/파트너십)이 약하면 파급이 제한됩니다.
이건 생성형 AI 시장에서 “모델 성능”과 “제품 채널”의 힘이 분리되고 있다는 신호예요.


9) 앞으로 체크할 관전 포인트 (R2, 그리고 빅테크의 대응)

DeepSeek가 다음 플래그십(R2 혹은 V4 계열로 추정)에 mHC를 반영할지는 아직 확정은 아니지만,
패턴상 “출시 전에 기초 연구를 먼저 공개하고, 이후 모델에 탑재”를 해왔다는 해석이 가능합니다.

그리고 빅테크/오픈소스 진영에서 관전할 건 이거예요.
mHC가 특정 설정에서만 되는 ‘트릭’인지, 대규모 학습에서 재현 가능한 안정적 패턴인지.
재현이 되면, 여러 연구소가 “제약 기반 멀티스트림”으로 한동안 실험 러시가 붙을 가능성이 큽니다.


< Summary >

DeepSeek mHC는 잔차 연결의 안정성을 유지하면서, 여러 스트림으로 내부 정보 흐름을 넓혀 추론 성능을 끌어올린 설계다.
기존 하이퍼커넥션이 후반 학습에서 폭발하던 문제를 “믹싱 행렬 제약(행/열 합=1) + Sinkhorn-Knopp 사영”으로 구조적으로 막는다.
27B 기준 GSM8K/BBH/MMLU 등에서 의미 있는 점프를 보였고, 내부 용량 4배 확장 대비 학습 오버헤드는 6~7% 수준을 제시했다.
이는 GPU 부족과 비용 압박이 큰 국면에서 ‘더 큰 모델’ 말고 ‘더 효율적인 스케일링 축’을 제안하며, 데이터센터 투자와 반도체 공급망 흐름에도 영향을 줄 수 있다.


[관련글…]


제조강국 한국, ‘피지컬 AI(Physical AI)·휴머노이드’에서 역전 가능한 진짜 이유 오늘 글에는 딱 3가지를 확실히 담았어요.1) 왜 장병탁 교수가 “LLM은 사상누각”이라고까지 말하는지, ‘기술적 한계’의 본질2) 왜 한국이 피지컬 AI·휴머노이드에 구조적으로 유리한지(제조·부품·인프라 관점에서)3) 2026~2030 골든타임에 한국이 “진짜로 선점해야 할 체크리스트”와, 뉴스/유튜브에서 잘 안 다루는 핵심 포인트 1) 한 줄 뉴스: “2026년 화두는 피지컬 AI… AI가 화면 밖으로…

Feature is an AI Magazine. We offer weekly reflections, reviews, and news on art, literature, and music.

Please subscribe to our newsletter to let us know whenever we publish new content. We send no spam, and you can unsubscribe at any time.