2026-06-08

Weekly AI Papers — 2026-06-08

📄 10편 🏛️ 빅테크 10편

🏛️ 빅테크

NVIDIA

🤖 "모든 센서 데이터를 하나의 머신에 집어넣고 싶다? 이제 진짜로 가능해졌다."

Cosmos 3: Omnimodal World Models for Physical AI

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: omnimodal, world model, physical AI, mixture-of-transformers, embodied agent

💭 이런 질문을 해본 적 있나요?

“영상 + 음성 + 텍스트 + 행동”을 하나의 모델로 처리할 수 있을까?
로봇이 환경을 ‘이해’하고 ‘생성’하는 게 하나의 모델로 가능할까?
기존의 비디오 생성 모델은 너무 느리고, 로봇 정책 모델은 너무 제한적일까?

[핵심 설명: 기존에는 각 모달리티(영상, 음성, 텍스트 등)를 독립된 모델로 처리했고, 로봇 행동은 별도의 정책 모델이 필요했지만, 이 논문은 하나의 mixture-of-transformers 아키텍처로 모든 모달리티를 통합해 ‘물리적 AI’를 하나의 뼈대로 구현했습니다.]

특히 주목할 점:

**Text-to-Image 및 Image-to-Video 모델에서 1위** — Artificial Analysis가 평가한 최고 오픈소스 모델로, 기존 최고 모델 대비 2.3배 더 높은 생성 품질을 달성
**RoboArena에서 최고 정책 모델** — 기존 최고 모델 대비 1.8배 더 높은 성과를 기록하며, 물리적 에이전트의 정책 학습에 적합한 훈련 성능을 입증

🎯 왜 이것이 게임 체인저인가? :

**각 모달리티를 독립적으로 처리하는 분산 모델 → 하나의 통합 아키텍처로 모든 모달리티를 동시에 처리하는 세계 모델**

논문 보기 → GitHub 코드 보기 ⭐ 9,619 → Aditi, Niket Agarwal, Arslan Ali 외 288명

🏛️ 빅테크

HUAWEI Computing Systems Lab

🧠 “KV 캐시 압축은 왜 실패했을까? — 토큰 스케일 오류가 누적되니까!”

KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

🏛️ 소속: HUAWEI Computing Systems Lab (빅테크)

🏷️ 핵심 키워드: KV-cache quantization, error accumulation, variance normalization, autoregressive decoding, test-time scaling

💭 이런 질문을 해본 적 있나요?

“2비트로 압축한 KV 캐시가 왜 오히려 정답률이 떨어지지?”
“긴 문장 생성할수록 모델이 더 이상 안정적이지 않아요… 왜?”
“테스트 시스템에서 스케일링이 효과적이면 왜 캐시가 메모리에 걸려?”

[핵심 설명: 기존에는 KV 캐시를 단순히 정규화하거나 스케일링만 적용해 오류를 줄이려 했지만, 이 논문은 토큰 스케일 오류가 autoregressive decoding 시점에서 누적되며 성능을 해치는 문제를 정확히 진단하고, Hadamard 회전 + 이중 스케일링의 분산 정규화를 통해 이를 근본적으로 해결합니다.]

특히 주목할 점:

MATH500에서 기존 최고 기록 62.1% 대비 **72.3%** 정답률 향상 (2비트 정밀도)
HumanEval에서 기존 최고 기록 49.2% 대비 **57.8%** 정답률 향상 (2비트 정밀도)
AIME24에서 기존 최고 기록 38.7% 대비 **46.1%** 정답률 향상 (2비트 정밀도)

🎯 왜 이것이 게임 체인저인가? :

“단순 스케일링 → 분산 정규화 + 하다마드 회전 적용”

(기존은 토큰 스케일 오류를 무시하거나 제한적으로 처리했지만, KVarN은 이 오류를 정확히 감지하고, 각 토큰의 스케일을 히스토그램 기반으로 동적으로 조정해 누적 오류를 근본적으로 차단)

논문 보기 → GitHub 코드 보기 ⭐ 342 → Lorenz K. Muller, Philippe Bich, Chiara Boretti 외 3명

🏛️ 빅테크

Tencent

🧠 “미래를 시뮬레이션해도 틀릴 수 있다? 그럼 왜 쓰는 거야?”

World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: world model, multimodal LLM, controlled reasoning, self-distillation, future simulation

💭 이런 질문을 해본 적 있나요?

“시각화된 미래 예측이 틀릴 수 있으면, 왜 쓰는 거야?”
“LLM이 추론하는 건 괜찮는데, 그 시각화된 미래가 틀렸을 때 어떻게 대처해?”
“미래를 시뮬레이션하는 게 힘들면, 그냥 추론만 하면 되는 거 아냐?”

[핵심 설명: 기존에는 시뮬레이션 결과를 신뢰하던 방식이었지만, 이 논문은 시뮬레이션의 정확성과 추론의 일관성을 동시에 조율하는 ‘통제된 구체 추론’으로 뒤집었습니다.]

특히 주목할 점:

VRQABench에서 기존 최고 기록 대비 **10.6% 점수 향상**
OpenWorldQA에서 기존 최고 기록 대비 **10.9% 점수 향상**
시뮬레이션 오류에 대한 **robustness 증가**로 틀린 미래 시뮬레이션도 정확한 답변으로 이어짐

🎯 왜 이것이 게임 체인저인가? :

“시뮬레이션 결과를 그냥 믿고 끝” → “시뮬레이션을 검증하고 추론과 통합해 정확한 결론 도출”

논문 보기 → GitHub 코드 보기 ⭐ 17 → Yucheng Zhou, Wei Tao, Yiwen Guo 외 1명

🏛️ 빅테크

NVIDIA

🎬 “긴 영상 생성에 ‘기억’이 필요하다? 이 논문이 답을 줬다!”

LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: retrieval-augmented generation, video diffusion, latent history, temporal delta loss, long-horizon generation

💭 이런 질문을 해본 적 있나요?

“영상이 길어질수록 왜 얼굴이 변해요?”
“슬라이딩 윈도우만 써서 오래된 프레임에 오류가 누적되는 건 왜 안 고쳐지죠?”
“내가 생성한 영상 자체를 기억해줄 수 있다면, 더 나은 결과가 나올까요?”

[핵심 설명: 기존에는 슬라이딩 윈도우만으로 생성했고, 오류가 누적되면 점점 더 흐려졌습니다. 이 논문은 생성된 라tent(잠재 표현)을 ‘검색 가능한 역사’로 활용해, 과거의 정확한 정보를 재사용합니다.]

특히 주목할 점:

**VBench-Long 평가에서 평균 1.25점 증가** — 기존 최고 성과보다 1.25점 더 높은 평균 점수를 기록.
**오류 누적 감소 3.8배** — 슬라이딩 윈도우 기반 방식 대비, 오류 누적 속도를 3.8배 감소시킴.

🎯 왜 이것이 게임 체인저인가? :

**“실시간 윈도우만으로 오류를 누적시키는 생성” → “과거 라tent를 검색해 정확한 맥락을 재사용하는 RAG 기반 생성”**

논문 보기 → GitHub 코드 보기 ⭐ 51 → Qixin Hu, Shuai Yang, Wei Huang 외 2명

🏛️ 빅테크

Microsoft

🚀 "오픈 웹 에이전트도 온라인 RL로 훈련 가능하다? 실제 웹사이트에서 67% 성공률 달성"

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

🏛️ 소속: Microsoft (빅테크)

🏷️ 핵심 키워드: online reinforcement learning, visual web agents, multi-turn RL, live-browser infrastructure, open-source agent training

💭 이런 질문을 해본 적 있나요?

“오픈 소스 에이전트는 왜 항상 성능이 떨어지나요?”
“실시간 웹사이트에서 RL 훈련이 가능할까?”
“정말로 2,200개의 RL 테스크로 웹 에이전트를 훈련할 수 있을까?”

[핵심 설명: 기존에는 오픈 에이전트가 수작업으로 수집한 고정 데이터셋에 의존했지만, 이 논문은 실제 웹사이트에서 온라인 멀티턴 RL을 적용해 훈련 파이프라인을 완전히 재설계했습니다.]

특히 주목할 점:

0.4K 초기 트레이젝토리와 2.2K 오픈엔드 RL 훈련 태스크로 OpenWebRL-4B가 Online-Mind2Web에서 67.0% 성공률 달성
동일 규모 또는 더 큰 규모의 오픈 에이전트보다 성능 우수하며, OpenAI CUA 및 Gemini CUA와 경쟁 수준의 성과 유지

🎯 왜 이것이 게임 체인저인가? :

“고정 데이터셋에 의존하는 오픈 에이전트” → “실시간 웹사이트에서 온라인 멀티턴 RL로 훈련하는 오픈 에이전트”

논문 보기 → GitHub 코드 보기 ⭐ 20 → Rui Yang, Qianhui Wu, Yuxi Chen 외 7명

🏛️ 빅테크

BAIDU

🗺️ "도로를 AI가 직접 그린다? 그런데 왜 인간이 여전히 손을 대는가?"

MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

🏛️ 소속: BAIDU (빅테크)

🏷️ 핵심 키워드: agentic framework, lane-level mapping, specification verification, vision-language reasoning, map editing

💭 이런 질문을 해본 적 있나요?

“AI가 도로를 그릴 수 있다면, 왜 여전히 사람이 수정을 해야 하나?”
“도로 표시가 흐려도 AI가 정확히 도로를 잡아낼 수 있을까?”
“수백 도시 규모에서 AI가 도로를 자동으로 생성하는 건 현실인가?”

[핵심 설명: 기존에는 센서 데이터에서 직접 도로를 예측하는 방식이었지만, 이 논문은 명확한 규칙과 제약을 적용한 ‘검증 기반 에이전트 루프’로 도로 생성을 뒤집었습니다.]

특히 주목할 점:

360개 도시에 적용해 전체 생산 자동화율을 95%로 끌어올렸음
복잡한 장면(표시 훼손, 가려짐 등)에서 기존 베이스라인보다 15% 이상 정확도 향상

🎯 왜 이것이 게임 체인저인가? :

“사람이 직접 도로를 수정하는 수작업 → AI가 규칙을 명시적으로 검증하고, 자동으로 수정하는 에이전트 시스템”

논문 보기 → GitHub 코드 보기 ⭐ 2 → Deguo Xia, Zihan Li, Haochen Zhao 외 6명

🏛️ 빅테크

ByteDance

🎤 “다시 말해도 신기한데… 대화처럼 자연스러운 음성 합성도 ‘제로샷’으로 가능하다?”

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

🏛️ 소속: ByteDance (빅테크)

🏷️ 핵심 키워드: zero-shot TTS, expressive speech, dialogue synthesis, speaker-turn conditioning, diffusion model

💭 이런 질문을 해본 적 있나요?

대화형 음성 합성이 왜 항상 ‘끊김’과 ‘감정 불일치’가 문제인가?
단일 음성 모델로 대화를 합성하면 어떤 문제가 생기나?
‘제로샷’으로도 감정과 톤을 유지하는 음성 합성이 가능할까?

[핵심 설명: 기존에는 각 대화 턴을 독립적으로 합성해 조각 맞춰야 했는데, 이 논문은 1~4명의 음성도 한 모델로 제로샷으로 처리해 대화 흐름과 감정 연속성을 유지합니다.]

특히 주목할 점:

SwanBench-Speech 평가에서 **모든 오픈소스 기존 모델보다 25% 높은 ‘ richness ’ 점수**를 기록
**대화 설정에서도 기존 모델 대비 30% 높은 ‘hierarchy’ 점수**를 달성, 감정과 구조의 계층성을 훨씬 더 잘 재현

🎯 왜 이것이 게임 체인저인가? :

“각 턴을 독립적으로 합성해 조각 맞추는 방식” → “한 모델로 1~4명의 음성과 턴을 조건부로 제어하는 제로샷 합성”

논문 보기 → Ruiqi Li, Yu Zhang, Changhao Pan 외 3명

🏛️ 빅테크

ByteDance Seed

🎨 "비트코인처럼 흐르는 이미지? VAE 없이도 멀티모달 모델이 ‘자체 생성’을 완성했다!"

Representation Forcing for Bottleneck-Free Unified Multimodal Models

🏛️ 소속: ByteDance Seed (빅테크)

🏷️ 핵심 키워드: Representation Forcing, Bottleneck-Free, Unified Multimodal Models, Pixel-Space Generation, VAE-Free

💭 이런 질문을 해본 적 있나요?

“왜 이미지 생성에 VAE가 꼭 필요할까?”
“모델이 직접 픽셀을 생성할 수 있다면, 왜 VAE를 끼워넣는 걸까?”
“이미지 이해와 생성을 동시에 잘하는 모델은 진짜로 가능한가?”

[핵심 설명: 기존에는 VAE가 고정된 외부 잠재 공간을 통해 이미지 생성을 담당했지만, 이 논문은 VAE 없이도 모델이 자체적으로 ‘표현을 예측하고’ ‘픽셀을 생성’하는 방식으로 구조를 재설계했습니다.]

특히 주목할 점:

이미지 생성에서 RF 적용 모델은 VAE 기반 최신 모델과 **동일한 수준의 품질**(즉, **100% 경쟁력 수준**)을 달성
이미지 이해 성능에서 VAE 기반 모델 대비 **평균 5.2% 향상**을 기록 (미세한 구조 파악 능력 향상)

🎯 왜 이것이 게임 체인저인가? :

**“외부 VAE를 끼워넣고, 고정된 잠재 공간을 사용하는 구조” → “자체적으로 표현을 예측하고, 픽셀 생성을 직접 담당하는 내재적 생성 아키텍처”**

논문 보기 → Yuqing Wang, Zhijie Lin, Ceyuan Yang 외 10명

🏛️ 빅테크

Samsung Research

🤖 “오피셜 학습도 망가질 수 있다? 트러스트 레지온으로 안정화한 OPD가 등장했다!”

Trust Region On-Policy Distillation

🏛️ 소속: Samsung Research (빅테크)

🏷️ 핵심 키워드: On-Policy Distillation, Trust Region, Policy Gradient, KL Divergence, Token-Level Supervision

💭 이런 질문을 해본 적 있나요?

“오피셜 학습이 왜 안 되는 걸까?”
“교사와 학생 분포가 다르면 학습이 실패하는 건 당연한가?”
“오피셜 학습에 신뢰할 수 있는 감독이 없으면, 어떻게 학습을 시킬 수 있나?”

[핵심 설명: 기존에는 학생이 교사의 토큰을 기반으로 학습했지만, 분포가 너무 다르면 정책 그라디언트가 불안정해져 학습이 실패했다. 이 논문은 “신뢰 영역”을 설정해, 교사의 감독이 신뢰할 수 있는 지역에서만 오피셜 학습을 수행함으로써 안정성을 획기적으로 높였다.]

특히 주목할 점:

수학 추론 테스트에서 기존 OPD 대비 **12.7% 점수 향상**
코드 생성 평가에서 **EOPD 대비 19.3% 더 높은 성과**
일반 도메인 평가에서 **REOPOLD 대비 21.1% 성능 개선**

🎯 왜 이것이 게임 체인저인가? :

“교사-학생 분포 차이에 취약한 오피셜 감독” → “신뢰 영역 내에서만 학습하는 트러스트 레지온 오피셜 디스티리션”

논문 보기 → Xingrun Xing, Haoqing Wang, Boyan Gao 외 2명

🏛️ 빅테크

Deepmind

🎨 “AI가 3D 모델링을 ‘코드로’ 해내는 건, 이제 ‘가능’이 아니라 ‘무슨 수준’이 궁금해지는 시대입니다.”

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

🏛️ 소속: Deepmind (빅테크)

🏷️ 핵심 키워드: procedural 3D modeling, vision-language models, agent benchmark, code generation, 3DCodeArena

💭 이런 질문을 해본 적 있나요?

“AI가 이미지나 문장을 보고 자동으로 3D 모델을 만들 수 있다면, 왜 아직 코드로 작성하는 게 더 중요할까?”
“VLM이 3D 모델링을 할 수 있다면, 왜 12개의 고급 모델 중 90%가 실패하는 걸까?”
“사용자가 원하는 모델이 ‘부유한 부품’이 되는 걸 방지하려면, 어떤 기술이 필요한가?”

[핵심 설명: 기존에는 VLM이 3D 모델링을 ‘생성’하는 것으로만 평가됐는데, 이 논문은 ‘코드로 생성’하는 능력과 ‘실행 환경’의 중요성을 처음으로 체계적으로 측정했습니다.]

특히 주목할 점:

12개의 고급 VLM 중 90%가 API 불일치로 실패했으며, 성공한 모델도 67%가 연결되지 않은 부품을 포함했습니다.
테스트 타임 스케일링(사고 예산 증가 및 다단계 피드백)이 적용될 때 성능이 평균 2.3배 향상되었습니다.

🎯 왜 이것이 게임 체인저인가? :

“VLM이 3D 모델링을 ‘생성’하는 것” → “VLM이 3D 모델링을 ‘코드로 작성하고 실행’하는 것”

논문 보기 → GitHub 코드 보기 ⭐ 27 → Yipeng Gao, Lei Shu, Genzhi Ye 외 5명

Weekly AI Papers — 2026-06-08

매일 받아보세요