[월텍남 – 월스트리트 테크남]
“엑셀까지 자유자재..이제 진짜 사무직 큰일났네요 ㄷ..“
GPT 5.2 등장, 구글·오픈AI·어도비까지 흔들렸다: “엑셀·포토샵·PDF”가 한 번에 붙으면서 사무직 일하는 방식이 바뀝니다
오늘 글에는 딱 4가지를 꽂아 넣을게요.
1) GPT 5.2가 왜 “벤치마크 점수(72점)”보다 훨씬 무섭게 느껴지는지
2) 새로 뜬 ‘GDP벨(GDPval)’이 진짜 의미하는 것: AI가 사람 일감을 얼마나 빼앗는지 “경제적 가치”로 측정
3) 엑셀(DCF)·코딩(시뮬레이션)·환각(신뢰도)에서 어떤 변화가 “현업”을 직격하는지
4) 사람들이 아직 크게 말 안 하는 핵심: 어도비(포토샵/익스프레스/아크로뱃)까지 ChatGPT 안으로 들어오면, 툴 경쟁이 아니라 “워크플로우 소유권” 싸움이 됩니다
1) 시장 반응 먼저: “모델 업데이트”가 빅테크 주가를 흔드는 단계로 왔다
– 원문 요지: GPT 5.2 소개 이후 구글 주가가 흔들렸고(상승 후 하락), 그만큼 체감 성능이 강했다는 해석이 나옴
– 이 포인트는 단순 기술 이슈가 아니라, 생성형 AI가 빅테크 밸류에이션과 투자심리에 바로 연결되는 구조가 굳어졌다는 의미예요
– 특히 AI는 이제 “좋아졌다” 수준이 아니라, 기업 생산성·광고·클라우드·소프트웨어 구독까지 매출 축을 직접 건드립니다
– 여기서 중요한 키워드는 결국 금리, 인플레이션, 경기침체, 글로벌 공급망, 반도체 같은 거시 변수랑 AI 투자가 한 몸처럼 움직인다는 점입니다
2) 벤치마크 72점 논란: 점수는 낮아 보이는데, 왜 체감은 더 세냐?
– 원문 요지: Artificial Analysis 기준 GPT 5.2 종합 72점
– 체감 성능이 더 높은데 점수가 덜 나온 이유로, “벤치마크가 실제 업무와 동떨어진 STEM(수학/과학) 중심”일 수 있다는 문제 제기
– 이게 핵심이에요
→ 사무직에서 무서운 건 수학문제 1~2개 더 푸는 능력이 아니라, “결과물(Output)”을 바로 만들어내는 능력이거든요
→ 문서/엑셀/슬라이드/이미지/요약/분석을 한 번에 완성하는 능력이 생산성 게임을 끝냅니다
3) 새 지표 ‘GDP벨(GDPval)’: “AI의 경제적 가치”를 직접 때려박은 벤치마크
– 원문 요지: GPT 5.2의 GDP벨이 37 → 60.8로 크게 상승
– GDP벨 방식: 약 44개 직업군에서 최고 전문가(재무 관리자, 약사, 변호사, 회계사, 엔지니어 등)를 뽑고
전문가 결과물 vs GPT 결과물을 비교해 “누가 더 나은 결과물인지” 평가
– 결과
– GPT 5.2: 전문가를 74% 확률로 이김
– GPT 5.2 Thinking: 전문가를 70% 확률로 이김
– 이전 GPT 5: 38% 수준
해석(현업 관점):
– 이건 “지능”이 아니라 “대체 가능 업무의 범위”가 넓어졌다는 신호입니다
– 특히 멀티모달(이미지 생성/해석 포함)까지 포괄이니까, 사무직·기획·분석·디자인·리서치가 동시에 영향을 받아요
– 즉, AI 도입은 특정 팀만 쓰는 툴이 아니라 전사 업무 표준이 될 가능성이 커졌습니다
4) 진짜 체감 포인트 1: 엑셀에서 ‘월가식 DCF’가 “템플릿 수준”으로 나온다
– 원문 요지: 5.1 vs 5.2 엑셀 결과물 차이가 확연
– 같은 프롬프트로 DCF 모델링 요청 시, 5.2 Thinking은 28분 “생각”해서 더 정교한 결과를 생성
– 5.2 결과물 특징
– 인풋 가정(Assumptions)이 더 촘촘
– 베이스/낙관/비관 시나리오가 구조적으로 포함
– 대시보드/그래프까지 한 눈에 보이게 구성
– “블룸버그급 데이터와 거의 일치”한다고 느낄 정도로 숫자·형식 완성도가 높았다는 평가
이게 왜 위험하냐?
– 지금까지 사무직의 방어막은 “툴을 다룰 줄 아는 능력(엑셀, PPT, BI)”이었어요
– 근데 5.2는 도구 숙련이 아니라 “업무 산출물 자체”를 빠르게 뽑아냅니다
– 앞으로는 엑셀을 잘하는 사람이 아니라, “좋은 가정/검증/리스크 관리”를 하는 사람이 살아남는 구조로 바뀝니다
5) 진짜 체감 포인트 2: 코딩 벤치(Software Bench Pro) + 물리 시뮬레이션까지
– 원문 요지: 코딩 벤치마크가 눈에 띄게 개선
– 예시: 파도/유체 시뮬레이션 같은 난이도 높은 코드를 생성하고
높이, 바람 속도 등을 조절하면 결과가 반영되는 형태로 구현
해석(산업 영향):
– “코드 생성”을 넘어 “상호작용 가능한 프로토타입”을 빨리 뽑아내는 능력이 강화된 거예요
– 이게 쌓이면, 기획→개발→테스트 사이클이 단축되면서 스타트업뿐 아니라 대기업도 개발 생산성 기준이 바뀝니다
6) ‘인간 유사 지능’ 평가(ARC a2)와 국제 정보 올림피아드 기록
– 원문 요지
– ARC a2 리더보드에서 GPT 5.2 Pro가 상위권, 50%대 돌파
– 국제 정보 올림피아드 성능도 기존 최고 기록(예: 38%)을 압도적으로 경신
여기서 중요한 건 “올림피아드 잘 푼다”가 아니고요.
– 구조적 사고/추론이 좋아지면, 현실 업무에서도 “예외 케이스 처리”가 늘어납니다
– 즉, 단순 자동화가 아니라 ‘애매한 업무’까지 먹기 시작한다는 시그널이에요
7) 환각(Hallucination) 감소: 신뢰도 게임이 본격화
– 원문 요지
– 5.1 Thinking 환각률 8.8%
– 5.2 Thinking 환각률 6.2% (약 38% 감소)
– “현재도 GPT가 환각이 적은 편인데 더 줄었다”는 평가
현업에서 환각이 줄면 뭐가 달라지냐면요.
– AI를 ‘참고용’이 아니라 ‘결재 라인에 올릴 자료’로 쓰기 시작합니다
– 그러면 도입 속도가 확 빨라져요
– 특히 금융, 법무, 회계, 리서치처럼 검증 비용이 큰 직군에서 파급이 큽니다
8) 이번 업데이트의 본게임: ChatGPT 안에서 어도비 앱을 “무료처럼” 붙여 쓰는 경험
– 원문 요지
– ChatGPT에서 포토샵 같은 어도비 앱을 연동해 편집 가능
– 노출/대비/하이라이트/섀도우 등 포토샵 조정 요소를 프롬프트로 컨트롤
– Adobe Express로 포스터 등 디자인도 생성
– Acrobat 리더 통합으로 PDF 편집/텍스트 수정까지 자연스러워짐
사용 흐름(원문 기반):
– ChatGPT에서 “플러스(+) → 더보기”로
Notion, Canva, Photoshop 등 외부 앱을 소스로 연결
– 이후 GPT가 해당 툴을 호출해 편집 파이프라인을 수행
퀄리티 평:
– 썸네일 글씨/그림자 등 디테일은 아직 아쉬울 수 있음
– 일반인 입장에선 ‘완전 자동’으로 뽑아주는 경쟁 모델(예: 구글 계열 이미지 생성)이 더 편할 수 있다는 언급도 있음
9) 다른 뉴스/유튜브가 놓치는 “진짜 중요한 내용” (핵심만 별도 정리)
9-1) 벤치마크 전쟁이 아니라 “워크플로우 소유권” 전쟁으로 바뀌었습니다
– GPT 5.2의 임팩트는 점수 72가 아니라
엑셀·포토샵·PDF 같은 ‘실무 툴 체인’을 ChatGPT가 한 번에 엮는 데 있어요
– 이 순간부터 사용자는 “툴을 열고 작업”이 아니라
“대화창에서 지시하고 결과물만 받는 방식”으로 이동합니다
– 승자는 모델이 아니라, 사용자의 업무 흐름을 기본값으로 잡는 플랫폼이에요
9-2) 사무직이 진짜 위험한 이유: ‘상급자용 결과물’이 바로 뽑힌다
– 지금까지 AI 산출물은 “초안” 느낌이 강했는데
– 원문에서 말한 5.2 DCF는 대시보드/시나리오까지 포함된, 바로 보고 가능한 형태에 가까웠죠
– 이건 팀장/임원에게 올리는 문서의 생산 라인이 흔들린다는 의미입니다
9-3) “Thinking(장고)”은 사람 대체가 아니라 ‘사람의 속도 격차’를 벌립니다
– 28분 생각해서 월가식 결과물을 만든다는 건
사람 기준으로는 며칠 걸릴 작업이 “기다리기만 하면 나오는” 구조예요
– 앞으로 개인의 역량 격차는 실력보다, AI를 붙여서 반복 생산하는 능력에서 크게 벌어질 가능성이 큽니다
9-4) 어도비의 반격/굴복이 동시에 보입니다
– 주가 반토막 언급처럼, 어도비는 “생성형 AI 시대에 툴만으로는 부족하다”는 압박을 받는 중이에요
– 그래서 ChatGPT에 들어가 유통을 택한 건데
이게 장기적으로는 어도비가 사용자 접점을 되찾는 게 아니라, 오히려 접점을 내주는 선택이 될 수도 있습니다
10) 직장인 실전 대응: “사무직 큰일”을 ‘내 일’로 바꾸는 체크리스트
10-1) 엑셀/재무
– AI가 만든 모델을 그대로 믿지 말고, “가정(Assumption) 리스트”를 먼저 뽑게 하세요
– 민감도 분석(매출 성장률/마진/WACC/터미널 성장률)부터 자동화하면 업무 시간이 확 줄어요
10-2) 문서/리서치
– 환각이 줄어도 검증은 필수라서, “출처 표준 포맷”을 팀 규칙으로 만드세요
– 내부 자료(회의록/정책/가이드)를 붙여 쓰는 구조가 장기적으로 경쟁력입니다
10-3) 디자인/콘텐츠
– 포토샵을 “손”으로 쓰기보다, 반복 작업(노출/색감/리사이즈/배경 변형)을 프롬프트로 템플릿화하세요
– 퀄리티가 아쉬운 부분은 사람이 마지막 10%만 손보는 방식이 가장 효율적입니다
11) 앞으로 관전 포인트: 글로벌 경제전망 + AI 트렌드가 만나는 지점
– 생성형 AI가 업무 생산성을 끌어올리면, 기업은 인건비 구조를 재설계합니다
– 이 과정에서 금리 환경이 높게 유지되면(자금조달 비용 증가), 기업은 더 공격적으로 자동화를 밀 가능성이 커요
– 반도체(특히 AI 가속기) 수요는 여전히 강하게 이어질 확률이 높고, 글로벌 공급망 재편과 맞물려 투자 방향이 바뀝니다
– 결과적으로 AI는 “IT 섹터만의 성장”이 아니라, 거시 경제의 비용 구조 자체를 바꾸는 변수로 자리 잡는 중입니다
< Summary >
GPT 5.2는 종합 점수(72)보다 “현업 결과물”이 훨씬 강하게 체감되는 업데이트입니다.
새 지표 GDP벨에서 전문가 대비 우위(74%)가 확인되며, 엑셀(DCF)·코딩(시뮬레이션)·환각 감소까지 실무 대체력이 커졌습니다.
특히 ChatGPT에서 어도비(포토샵/익스프레스/아크로뱃) 연동이 강화되며, 툴 경쟁이 아니라 ‘업무 워크플로우’ 주도권 경쟁으로 판이 바뀌고 있습니다.
[관련글…]
[티타임즈TV]
““논문, 보고서 요약해줘”라고 AI한테 시키는 것이 ‘최악의 프롬프팅’인 이유(이제현 박사)“
“논문/보고서 요약해줘”가 최악의 프롬프팅인 진짜 이유: 리더·직장인이 바로 써먹는 ‘발췌형 AI 업무 자동화’ 가이드
오늘 글에서는 이렇게 정리할게요.
① 왜 “요약해줘”가 숫자·정책·리서치 문서에서 특히 위험한지(실제 사고 패턴 중심)
② ‘요약’ 대신 무엇을 시켜야 정확도가 급상승하는지: 발췌/압축수색 프롬프트 템플릿
③ ChatGPT만 쓰면 손해 보는 지점과, NotebookLM·Perplexity 같은 도구 조합법
④ 리더 관점에서 팀 생산성을 올리는 AI 사용법(부하직원 시키듯 시켜라)
⑤ 다른 뉴스/유튜브에서 잘 안 짚는 “가장 중요한 포인트”만 따로 뽑아 정리
1) 뉴스 브리핑: 이 영상(이제현 박사 인터뷰) 핵심만 빠르게
[핵심 이슈] “논문/보고서 요약해줘”는 가장 흔하지만 가장 위험한 프롬프트다.
특히 숫자(성장률, 금리, 비율, 날짜)가 들어간 문서는 요약 과정에서 작은 왜곡이 자주 발생하고, 사용자는 원문을 안 읽으려고 요약을 시키기 때문에 검증이 사라져 사고로 이어진다.
2) 왜 “요약해줘”가 최악인가: 직장인 관점으로 재해석
요약은 AI에게 이렇게 말하는 거랑 비슷해요.
“나도 원문을 안 볼 거니까, 네가 알아서 핵심을 뽑고, 빈칸은 적당히 메워서, 그럴듯하게 한 장으로 만들어와.”
여기서 문제는 3가지가 동시에 터진다는 점이에요.
2-1. 숫자 왜곡이 ‘사소해 보이는데 치명적’
예: 보고서에 1.3%라고 되어 있는데 1.2%로 바뀌는 식.
경제/금융/정책 문서에서 0.1%p는 결론을 바꾸고, 투자 판단/예산/리스크 평가에 직접 영향을 줍니다.
이건 기업 실적, 금리 전망, 인플레이션 같은 매크로 지표에서 특히 위험해요.
2-2. “없는 내용”을 만들어 넣어도 사용자가 못 잡는다
요약을 시키는 목적 자체가 “원문을 안 읽으려고”인 경우가 많아서요.
AI가 ‘그럴듯한’ 국가/정책/결론을 끼워 넣으면, 비교할 사람이 없는 구조가 됩니다.
2-3. 책임 소재는 결국 사람(사용자)에게 온다
보고서/발표/메일/회의 자료로 나간 순간, “AI가 그렇게 말했어요”는 면책이 안 되죠.
결국 리더십, 의사결정, 리스크 관리 관점에서 ‘검증 비용’을 설계하지 않으면 손해가 커집니다.
3) 해결책은 “요약”이 아니라 “발췌(압축수색)”이다
이제현 박사의 포인트가 되게 실무적이에요.
요약(Summary) = “네가 알아서 줄여줘”
발췌(Extract) = “원문에서 정확히 ‘있는 문장/표/수치’를 지정해서 가져와”
즉, AI를 ‘작가’가 아니라 ‘정확한 검색/정리 담당자’로 쓰는 방향입니다.
3-1. 발췌형 프롬프트의 핵심 구성(상사처럼 지시하기)
① 왜 하는지(목적)
② 필요한 자료 범위(어느 장/표/항목)
③ 결과물 서식(표로, 항목으로, 인용문 포함 등)
④ 모르면 모른다고 말하라고 지시(환각 억제에 매우 효과적)
4) 바로 복붙해서 쓰는 “발췌형 프롬프트 템플릿”
4-1. 숫자 포함 보고서(경제/산업 전망)용
“아래 문서에서 숫자(%, 금리, 규모, 날짜)가 포함된 문장만 발췌해줘.
각 문장 옆에 원문 위치(페이지/섹션/표 번호)를 반드시 적어줘.
원문에 없는 내용은 절대 추정하지 말고, 없으면 ‘없음’이라고 써줘.
결과는 ‘지표/값/단위/문맥/원문 위치’ 5개 컬럼 표로 정리해줘.”
4-2. 논문/리서치(대량 문헌)용
“이 PDF에서 ‘연구 목적/데이터/방법론/핵심 결과/한계’에 해당하는 문장을 각각 2~5개씩 직접 인용으로 발췌해줘.
각 인용문에 페이지 번호를 붙여줘.
해석/요약은 하지 말고, 발췌만 해줘.”
4-3. 회의/보고용 1장 결론 만들기(검증 포함)
“아래 발췌문을 기반으로, 1장 보고서 구조로 정리해줘.
단, 결론 문장마다 근거로 연결되는 발췌문 번호를 각주처럼 붙여줘.
근거가 없는 문장은 쓰지 마.”
5) 도구 선택: “그냥 ChatGPT”보다 업무 안전성이 높아지는 조합
영상에서 특히 강조되는 흐름은 이거예요.
5-1. 출처 확인이 쉬운 도구를 써라
NotebookLM, Perplexity처럼 “가져온 내용 옆에 원문 링크/근거 위치”가 붙는 도구는 검증 비용을 크게 줄입니다.
리서치 자동화의 핵심은 ‘생성’이 아니라 ‘검증 가능한 정리’에 가까워요.
5-2. 웹페이지는 가능하면 PDF로 고정해라
링크는 내용이 바뀔 수 있고, 사이드바/광고/관련기사까지 같이 딸려 들어가 분석을 망칠 때가 많습니다.
그래서 본문만 남기거나 PDF로 저장해서 넣는 게 안전합니다.
5-3. “100배 빠름”을 버리고 “10배 빠름 + 검증”을 택하라
요약 한 방이면 엄청 빨라지지만 사고 확률이 올라갑니다.
차라리 10배만 빨라지고, 남는 시간을 검증에 쓰는 게 실무적으로 이득이라는 관점이죠.
6) 리더/조직 관점: AI는 ‘부하직원처럼’ 시켜야 성과가 난다
이 부분이 진짜 직장인들에게 꽂히는 대목인데요.
프롬프트 스킬을 “기술”로 외우기보다,
상사가 일을 잘 시키는 방식을 그대로 적용하라는 거예요.
6-1. 리더가 AI를 다르게 써야 하는 이유
팀에서 AI를 굴릴 때는 개인 생산성만이 아니라,
품질 기준, 재현성, 책임 분담, 정보보안까지 같이 설계해야 합니다.
6-2. 팀에 바로 적용 가능한 운영 룰
① “요약 금지 문서”를 지정: 숫자/정책/대외 보고용 자료
② 기본은 발췌 → 그 다음 사람이 요약/해석
③ 결과물에는 항상 출처(페이지/표/링크) 포함
④ 검증 체크리스트(CTRL+F로 원문 대조 항목 3개 이상) 의무화
7) (다른 데서 잘 안 말하는) 진짜 중요한 포인트만 따로
7-1. “요약해줘”는 프롬프트 문제가 아니라 ‘업무 윤리/프로세스’ 문제다
대부분은 모델 성능을 탓하는데, 사실 핵심은 사용 목적이에요.
“원문을 안 읽으려고” 요약을 시키는 순간, 검증이 구조적으로 사라집니다.
이건 개인 실수라기보다 팀 프로세스 설계 실패에 가깝습니다.
7-2. AI 시대 리서치 경쟁력은 ‘모델’보다 ‘데이터/검증 설계’에서 갈린다
모델은 점점 상향평준화되고, 결국 차이는
어떤 데이터를 쓰고, 어떻게 검증 가능한 형태로 축적하느냐에서 납니다.
이 관점은 기업 생산성, 디지털 전환, 공급망 리스크 같은 이슈에서도 그대로 적용돼요.
7-3. “출처가 붙는 출력”이 곧 비용 절감이다
요약의 달콤함은 순간이고,
사고 한 번 나면 수정/보고/신뢰 회복 비용이 훨씬 큽니다.
결국 AI 활용의 ROI는 ‘빠르게 쓰는 법’이 아니라 ‘틀리지 않게 쓰는 법’에서 결정됩니다.
8) 경제·AI 트렌드 관점에서의 확장 해석(2025~2026 실무 영향)
앞으로 기업에서 “AI 리서치/보고 자동화”가 더 확산될수록,
문서 자동화의 경쟁력은 정확도(팩트) + 추적성(출처) + 재현성(같은 결과 반복)로 평가될 확률이 높습니다.
특히 금리, 인플레이션, 글로벌 경제 전망처럼 변수가 큰 영역은
‘그럴듯한 요약’보다 ‘검증 가능한 발췌’가 의사결정 속도를 더 올려줘요.
[관련글…]
< Summary >
“논문/보고서 요약해줘”는 숫자 왜곡과 없는 내용 생성(환각) 리스크가 크고, 사용자가 원문을 안 읽어서 검증이 사라지기 때문에 최악의 프롬프트다.
해결은 요약이 아니라 ‘발췌(압축수색)’이며, 페이지/표/문장 단위로 근거를 붙여 가져오게 해야 한다.
NotebookLM·Perplexity처럼 출처 추적이 쉬운 도구를 쓰고, 웹은 PDF로 고정해 검증 비용을 줄이는 게 실무 ROI가 가장 크다.
리더는 AI를 부하직원처럼 목적·범위·형식·검증 규칙까지 지시해야 팀 생산성과 리스크 관리를 동시에 잡을 수 있다.
[AI Revolution]
“OpenAI Garlic, Google Titans, Apple Clara, GPT 5.2, AGI Claims and More AI News This Week“
이번 주 AI ‘빅뱅’ 정리: GPT-5.2부터 Google Titans(메모리), Apple CLaRa(초압축 문서검색), OpenAI Garlic(비밀 라인), 에이전트(Lux), 영상/아바타(텐센트·중국), 그리고 “AGI 주장”까지 — 결국 돈이 어디로 몰릴지까지 한 번에 정리
이번 주는 “모델 하나 잘 나왔다” 수준이 아니라,
메모리(초장문 맥락) → 검색(RAG) → 음성 지연시간 → 영상 생성 → UI 에이전트 → 오픈소스 멀티모달 → 정부/엔터프라이즈 도입까지
AI 스택 전체가 동시에 가속한 한 주였어요.
이 글에는 아래 핵심이 들어있습니다.
1) OpenAI가 왜 ‘코드 레드’까지 갔는지, 그리고 비밀 모델 Garlic의 기술적 의미
2) Apple CLaRa가 “긴 문서 검색 비용”을 구조적으로 줄이는 방식
3) Google Titans가 바꾸는 ‘장문 컨텍스트 경쟁’의 룰
4) 영상/아바타/음성/에이전트가 “제품화 단계”로 넘어온 신호
5) GPT-5.2가 좋아졌는데도 시장 반응이 차가운 이유(=향후 수익화 포인트)
6) 이 흐름이 거시경제, 인플레이션, 금리, 생산성, 반도체 공급망에 어떻게 연결되는지
1) 헤드라인 요약(뉴스형 브리핑)
[경쟁] OpenAI, Google Gemini 3 압박에 내부 ‘코드 레드’
Gemini 3가 LM Arena에서 상위권을 찍으면서, OpenAI 내부에 “경쟁 경보”가 떴다는 보도가 나왔어요.
이건 단순 자존심 문제가 아니라, 엔터프라이즈 계약·개발자 생태계·클라우드 번들 경쟁이 동시에 걸린 문제라서 반응이 빨랐던 걸로 보여요.
[유출] OpenAI 비밀 모델 ‘Garlic’ 루머: 더 작고 싸게, 추론/코딩 성능을 끌어올리는 방향
내부 평가에서 Gemini 3, Anthropic Opus 계열 대비 추론·코딩이 강하다는 얘기가 돌았고,
핵심은 “프리트레이닝 초기 단계 설계”를 손보며 개념 구조를 먼저 잡고 디테일을 나중에 쌓는 방식으로 비용 대비 성능을 올렸다는 포인트예요.
[애플] Apple, CLaRa 공개: 긴 문서 검색(RAG)을 ‘압축 토큰 메모리’로 재설계
긴 PDF/보고서/계약서에서 필요한 부분을 찾으려고 통째로 컨텍스트에 넣는 방식은 느리고 비싸죠.
CLaRa는 문서를 “의미를 유지한 고밀도 메모리 토큰”으로 압축해, 질의 시 원문 덩어리를 크게 가져오지 않고도 답을 뽑는 구조를 제시했어요.
[마이크로소프트] VibeVoice Realtime: 음성 응답 지연을 300ms 수준으로
사람이 대화할 때 가장 거슬리는 게 “대답하기 전의 정적”인데, 이걸 거의 실시간으로 줄였다는 게 포인트예요.
[중국 연구진] Live Avatar: 몇 시간 스트리밍해도 얼굴/정체성 안 무너지는 실시간 아바타
기존 영상 생성은 시간이 길어질수록 얼굴이 ‘흐트러지는’ 문제가 컸는데, 장시간 안정성 자체가 제품화 기준을 넘겼다는 시그널입니다.
[텐센트] HunyuanVideo 1.5: 소비자 GPU에서 빠른 영상 생성(실용성 중심)
“데이터센터 전용”에서 “크리에이터 PC에서도 가능” 쪽으로 확 내려온 느낌이에요.
[구글] Titans 공개: 초장문 컨텍스트를 위한 ‘메모리 기반 시스템’
트랜스포머의 컨텍스트 비용 폭증 문제를 정면으로 건드렸고,
“놀람(surprise) 기반으로 기억하고, 똑똑하게 잊는(forget)” 방식이 핵심으로 보입니다.
[에이전트] Lux: API가 아니라 ‘실제 화면(UI)을 조작’하는 컴퓨터 사용 에이전트
이제 에이전트는 “툴 호출”을 넘어, 진짜 사람처럼 브라우저/스프레드시트/OS를 다루는 단계로 진입 중이에요.
[오픈소스 충격] GLM 4.6V: 멀티모달+툴콜링+128k 컨텍스트를 오픈소스로
이미지/스크린샷/웹페이지를 그냥 ‘설명’하는 게 아니라, 비주얼 입력을 의사결정 루프에 넣어 실행까지 가는 구조를 강조했고,
가격 경쟁력까지 세게 가져왔다는 점에서 파급이 컸습니다.
[AGI 논쟁] 일본 기반 Integral AI: “AGI-capable” 주장
자율 스킬 학습·안정적 숙련·에너지 효율(인간 뇌급)을 기준으로 내세웠는데, 검증은 아직 갈 길이 멉니다.
[오픈AI] GPT-5.2 공개: 성능은 확실히 올랐는데, 반응은 ‘차갑다’
업무형 지표(코딩·장문·에이전트)가 좋아졌다는 발표인데도, 사용자 반응은 “체감 먼저 보여줘” 분위기였어요.
[IP/콘텐츠] Disney–OpenAI 라이선스 파트너십: 대형 IP가 생성형 영상과 공식적으로 결합
이건 단순 제휴가 아니라, “저작권 전쟁이 계약/정산 모델로 이동”하는 시험대에 가까워요.
[정부 도입] 미 국방(전쟁) 부처, genai.mil 론칭: Gemini for Government 기반
생성형 AI가 ‘실험’에서 ‘전면 배치’로 넘어가는 상징적 사례입니다.
2) OpenAI ‘코드 레드’와 Garlic 루머: 왜 지금 “작고 싼데 똑똑한 모델”이 핵심인가
핵심 메시지: 이제 최상위 모델 1등 싸움보다, ‘단가(토큰 비용) 대비 성능’이 시장 점유율을 결정해요.
Garlic이 의미 있는 이유(루머 기준 재해석)
– 프리트레이닝을 “개념 구조 → 디테일” 순서로 재설계했다는 점은, 단순 파라미터 스케일업이 아니라 학습 커리큘럼/데이터 구성으로 효율을 뽑겠다는 방향입니다.
– 이 접근이 맞다면, GPU 비용이 폭증하는 국면에서 인플레이션 압력과 맞물린 “AI 단가 절감” 경쟁에 직접 대응해요.
– DeepSeek, Mistral, 중국계 경량 모델들이 존재감을 키운 배경도 결국 이 지점(효율)이고요.
경제 관점 포인트
– 기업은 “가장 똑똑한 모델”보다 “월간 API 비용이 예측 가능한 모델”을 원합니다.
– 즉, 앞으로의 승부는 성능뿐 아니라 총소유비용(TCO)과 안정성(SLA)로 갈 확률이 높아요.
3) Apple CLaRa: ‘긴 문서 검색’의 비용 구조를 바꾸는 RAG 2.0
기존 방식의 문제
– 긴 문서에서 검색하려고 원문 덩어리를 크게 가져와 컨텍스트에 넣으면, 토큰이 커져서 비용/지연이 같이 올라가요.
CLaRa가 던진 해법
– 문서를 아주 작은 “메모리 토큰”으로 압축(의미 보존 + 중복 제거)
– 질의 시 원문을 길게 끌고 오지 않고, 압축 표현 위에서 추론
중요한 기술 포인트(여기서 애플이 한 수 둔 부분)
– retriever(찾는 모듈)와 generator(답하는 모듈)를 분리하지 않고, 하나의 시스템처럼 공동 학습시켰다는 것
– 즉 “검색 따로, 답변 따로”가 아니라, 압축 공간 자체에서 사고하는 모델로 밀어붙였어요.
비즈니스 관점
– 이건 iOS/macOS의 온디바이스/프라이버시 전략이랑도 딱 맞아요.
– 장문 문서 처리 비용이 줄면, 기업용 문서 워크플로우(법무/재무/감사/IR)에서 애플 생태계의 매력이 커집니다.
4) Microsoft VibeVoice: “지연시간”이 곧 제품 경험이다
왜 300ms가 중요하냐
– 사람은 대화에서 1초만 멈춰도 “로봇이네”라고 느껴요.
– 실시간 음성 에이전트/콜센터/세일즈봇은 지연이 곧 전환율입니다.
구조적으로 달라진 점
– 텍스트가 완성될 때까지 기다리지 않고, LLM 토큰이 생성되는 즉시 음성을 스트리밍하는 설계
경제/산업 연결
– 이 영역은 “더 큰 모델”보다 엣지 배포, 비용, 안정성이 승부처라서, 생산성 도구 시장에서 마이크로소프트가 강해지는 구간이에요.
5) 중국 Live Avatar + Tencent HunyuanVideo 1.5: 영상이 ‘데모’에서 ‘운영’으로 넘어왔다
Live Avatar의 본질
– 프레임 품질보다 더 중요한 게 “몇 시간 켜놔도 안 망가짐”입니다.
– 방송/커머스/교육/상담은 길게 운영해야 돈이 되니까요.
Tencent의 포지셔닝
– 소비자 GPU에서도 돌아가게 최적화했다는 건, “사용자 수를 늘려 생태계로 묶겠다”는 전략이에요.
– 영상 생성은 곧 광고·커머스·숏폼 플랫폼과 바로 붙습니다.
거시경제 관점
– 영상/아바타의 대중화는 콘텐츠 제작 단가를 낮춰 디지털 광고 단가 재편을 만들고,
– 크리에이터 노동의 생산성 지표를 끌어올려 장기적으로 생산성 이슈와도 연결돼요.
6) Google Titans: “컨텍스트 창 확장”이 아니라 “기억하는 방식”의 전환
문제 정의
– 트랜스포머는 컨텍스트가 길어질수록 비용이 기하급수적으로 커지고 불안정해져요.
– 반대로 상태공간모델(SSM)은 효율적이지만 디테일이 뭉개질 수 있고요.
Titans의 접근
– 단기: windowed attention으로 정확도 유지
– 장기: 실행 중 업데이트되는 메모리 모듈로 “기억/망각”을 관리
– 기억은 ‘놀람(surprise)’ 기준으로 저장, 필요 없으면 지능적으로 잊음
왜 이게 판을 바꾸냐
– “모델은 학습 후 고정”이라는 전제를 약하게 만들어요.
– 추론(inference) 중에 적응하는 시스템이 일반화되면, 기업 입장에서는 장문 문서/로그/히스토리 기반 업무 자동화가 더 현실이 됩니다.
7) Lux(컴퓨터 사용 에이전트): 이제 자동화의 본체는 ‘API’가 아니라 ‘UI’다
API 기반 에이전트의 한계
– 현실 업무는 API가 없거나, 권한/보안/레거시 때문에 연결이 막힌 경우가 많아요.
Lux의 의미
– 화면을 보고 클릭/스크롤/키 입력을 수행하면, 레거시도 자동화 가능
– 즉, “RPA + LLM”이 드디어 제대로 결합되는 흐름이에요.
시장 파급
– 이게 확산되면, 기업은 대규모 시스템 개편 없이도 자동화를 붙일 수 있어요.
– 결과적으로 단기에는 도입이 빨라지고, 중장기에는 백오피스 인력 구조/아웃소싱 시장까지 영향을 줍니다.
8) GLM 4.6V 오픈소스: 멀티모달 툴콜링이 “폐쇄 API 독점”을 흔든다
왜 반응이 폭발했나
– “이미지 이해”가 아니라, 이미지/스크린샷/웹페이지를 입력으로 받아 도구 호출까지 연결하는 루프를 강조
– 오픈소스 + 로컬 실행 옵션 + 긴 컨텍스트 조합은 개발자/기업에 매력적이에요.
경제 관점
– 오픈소스의 질이 올라갈수록, 폐쇄형 모델은 가격을 올리기 어렵고(=마진 압박),
– 클라우드/반도체 수요는 “대형 학습”뿐 아니라 “분산 추론/엣지 추론”으로 형태가 바뀝니다.
– 결국 반도체 공급망에서도 고대역폭 메모리, 추론 최적화 칩, 엣지 디바이스 쪽 수요가 같이 커질 가능성이 커요.
9) Integral AI의 AGI-capable 주장: 지금은 “기술”보다 “검증/정의”가 전쟁
주장의 프레임
– 자율 스킬 학습
– 안전하고 신뢰 가능한 숙련
– 인간 뇌급 에너지 효율
블로그 관점에서 중요한 포인트
– AGI 논쟁은 이제 “가능하냐”보다 “무슨 기준으로 인증할 거냐” 싸움이에요.
– 그래서 앞으로는 정부/규제/감사(모델 거버넌스)가 같이 커지고, 기업 구매 결정도 여기에 묶일 겁니다.
10) GPT-5.2: 성능은 올랐는데 왜 시장은 안 설레나(진짜 중요한 신호)
발표 포인트(요약)
– 전문 업무 태스크 성능 상승
– 코딩/장문 추론/비전/툴콜링 개선
그런데 왜 반응이 차갑나
– 벤치마크 피로: 차트는 많은데 체감이 늦게 옴
– 신뢰 하락: 정책 변화/제한/롤백 경험 때문에 “좋아도 오래가겠어?”가 됨
– 타깃 변화: 감성적 대화보다 엔터프라이즈 생산성 최적화 느낌이 강해 “재미”가 줄어듦
투자/산업적으로 더 중요한 결론
– 이제 LLM 승부는 “IQ”가 아니라 신뢰(안정성) + 통제(거버넌스) + 비용(단가) + 배포(워크플로우 내장)이에요.
– 이 흐름이 커질수록, AI는 ‘앱’이 아니라 ‘업무 인프라’가 됩니다.
11) Disney–OpenAI 파트너십 & 미군 genai.mil: “법/조달/유통”이 모델만큼 중요해졌다
Disney 라이선스의 본질
– 생성형 AI의 가장 큰 리스크(저작권)를 “계약과 정산”으로 풀어낸 대표 사례
– 향후 다른 스튜디오/스포츠 리그/캐릭터 IP도 같은 길을 갈 가능성이 큼
genai.mil의 본질
– 정부 조직은 도입이 느릴 것 같지만, 한번 표준이 정해지면 확산 속도가 빨라요.
– 조달이 붙는 순간, 민간 시장에도 ‘사실상 표준’이 생깁니다.
12) 다른 유튜브/뉴스가 덜 말하는 “이번 주 진짜 핵심” (별도 정리)
① 지금 경쟁의 중심은 ‘컨텍스트 길이’가 아니라 ‘기억의 운영 방식’
Apple CLaRa(압축 메모리), Google Titans(동적 메모리)는 둘 다 “토큰을 더 넣자”가 아니라
“기억을 싸고 안정적으로 굴리자”예요.
이건 곧 기업 비용 구조를 바꿉니다.
② AI의 병목은 성능이 아니라 신뢰/통제/운영(SRE)로 이동 중
GPT-5.2 반응이 냉담했던 이유가 여기 있어요.
이제 사용자는 ‘똑똑함’보다 ‘일관됨’을 삽니다.
③ 에이전트의 승자는 “도구를 많이 가진 쪽”이 아니라 “현실 시스템에 붙는 쪽”
Lux 같은 UI 에이전트는 레거시를 우회해서 바로 ROI를 만들 수 있어요.
즉, 다음 전장은 “툴 스펙”이 아니라 “업무 프로세스 장악”입니다.
④ 오픈소스 멀티모달이 올라오면, 폐쇄형 모델의 프리미엄은 ‘규모’가 아니라 ‘컴플라이언스’로 이동
오픈소스가 성능 격차를 줄이면, 기업은 “감사 가능성, 데이터 주권, 계약 조건”으로 결정을 내리게 됩니다.
⑤ 결과적으로 거시경제에서 AI는 ‘테크 섹터 이벤트’가 아니라 생산성/비용(인플레이션) 변수로 편입
AI가 실제 업무단가를 낮추는 구간이 늘수록, 장기적으로는 생산성 개선 기대가 커지고
단기적으로는 특정 직무/외주/콘텐츠 가격이 먼저 흔들릴 가능성이 큽니다.
13) 앞으로 3~6개월 체크해야 할 관전 포인트
1) OpenAI Garlic이 실제 제품 라인으로 나오느냐(“작고 싸게”의 실체)
2) Apple이 CLaRa를 온디바이스/서버 어디에 붙이느냐(검색/시리/문서앱)
3) Google Titans가 Gemini에 어떤 형태로 흡수되느냐(장문, 메모리 개인화)
4) UI 에이전트가 보안/감사(로그, 재현성) 문제를 어떻게 푸느냐
5) 디즈니식 라이선스 모델이 다른 IP로 확산되느냐(정산 표준이 생기는지)
6) 정부/금융/의료의 도입이 본격화되며 규제 프레임이 “금지”에서 “인증/감사”로 바뀌느냐
< Summary >
이번 주 AI 뉴스의 본질은 “모델 1개”가 아니라 메모리·검색·음성·영상·에이전트·오픈소스·정부 도입까지 스택 전체가 동시에 전진했다는 점입니다.
OpenAI는 Gemini 3 압박 속에서 Garlic 같은 효율형 라인을 강화하는 분위기고, Apple CLaRa와 Google Titans는 장문 문제를 “더 넣기”가 아닌 “기억/압축”으로 풀려는 전환을 보여줬습니다.
GPT-5.2는 성능이 올랐지만, 이제 시장은 벤치마크가 아니라 신뢰·통제·비용·운영 안정성을 더 본다는 신호가 확실해졌습니다.
이 흐름은 생산성 확대와 비용 구조 변화로 이어져, 금리·인플레이션·반도체 공급망 같은 거시경제 변수에도 영향을 키울 가능성이 큽니다.






