2026-05-17

Weekly AI Papers — 2026-05-17

📄 10편 🏛️ 빅테크 10편

🏛️ 빅테크

NVIDIA

🧠 “영상 없으면 AI는 2%도 못 맞춘다? 멀티모달 기억의 진짜 테스트는 이거야.”

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: multimodal memory, long-context LVLM, memory-augmented agents, cross-modal reasoning, benchmarking

💭 이런 질문을 해본 적 있나요?

“이전 대화에서 말한 그 이미지, 지금 다시 보여줘야 하는데… 왜 못 찾지?”
“대화가 길어지면 AI가 기억을 못 하니까 답이 틀리는 거야?”
“사진이 없으면 AI가 질문에 답할 수 있을까?”

[핵심 설명: 기존에는 단순히 긴 문맥을 처리하는 LVLM과 메모리 증강 에이전트를 별개로 평가했지만, 이 논문은 두 방식을 하나의 ‘멀티세션 대화’ 테스트에서 비교해 ‘실제 멀티모달 증거’가 필요한 문제에 어떤 방식이 더 나은지 체계적으로 밝혔다.]

특히 주목할 점:

789개의 질문 중 80.4%가 이미지 증거를 요구하는데, 이미지를 제거하면 최고 수준 LVLM이 정답률 2%로 떨어짐
27개의 LVLM과 7개의 메모리 증강 에이전트 중, 멀티세션 추론 성능은 대부분 30% 이하로 제한됨

🎯 왜 이것이 게임 체인저인가? :

단순히 긴 문맥을 처리하는 모델 → 멀티세션 대화에서 이미지 증거를 유지하면서도 장기 기억을 구조화한 하이브리드 아키텍처

논문 보기 → GitHub 코드 보기 ⭐ 16 → Xiyu Ren, Zhaowei Wang, Yiming Du 외 11명

🏛️ 빅테크

NVIDIA

🎬 “비디오 생성에서 ‘몇 단계’만으로도 완성도를 끌어올리는 게 가능하다? 그럼 ‘무한 단계’로 확장할 수 있을까?”

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: video diffusion, flow map distillation, on-policy learning, any-step generation, ODE sampling

💭 이런 질문을 해본 적 있나요?

“몇 단계만으로 끝내는 비디오 생성 모델은 훨씬 빠르고 효율적이지 않나?”
“단계 수가 많아지면 성능이 떨어지는 게 정상인가? 아니면, 그게 ‘무조건’이어야 할까?”
“비디오 생성에서 ‘단계 수’를 고정하지 않고 유연하게 조절하는 건, 기존 모델이 무너질 정도로 어렵나?”

[핵심 설명: 기존에는 일정 단계 수에만 최적화된 일관성 기반의 비디오 생성이었는데, 이 논문은 ODE 샘플링 전체 경로를 학습하는 ‘플로우 맵 기반’ 디스틸레이션으로, 단계 수에 상관없이 유연하게 확장 가능하게 만듭니다.]

특히 주목할 점:

1.3B ~ 14B 파라미터 규모에서, 1~30단계까지의 샘플링에 대해 기존 일관성 기반 모델보다 **최대 1.2배 더 높은 FID 점수**를 달성
**10단계 샘플링 시 3.5배 더 낮은 디스크리티제이션 오류**를 기록하며, 테스트 시 단계 수 증가에 따른 성능 하락을 극복

🎯 왜 이것이 게임 체인저인가? :

“단계 수에 고정된 일관성 기반 디스틸레이션” → “플로우 맵을 기반으로 전체 ODE 경로를 학습하는 유연한 디스틸레이션”

논문 보기 → GitHub 코드 보기 ⭐ 249 → Yuchao Gu, Guian Fang, Yuxin Jiang 외 4명

🏛️ 빅테크

Google

🎯 "3D 추적은 이제 ‘프레임 단위 생성’에서 ‘시간에 걸친 포인트 추적’으로 진화한다?"

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

🏛️ 소속: Google (빅테크)

🏷️ 핵심 키워드: video diffusion, 3D tracking, dense point tracking, temporal alignment, LoRA fine-tuning

💭 이런 질문을 해본 적 있나요?

“3D 추적 모델이 프레임마다 새로 생성하는 게 맞는 걸까?”
“실제 영상에서의 움직임을 학습한 모델이 3D 추적에 더 좋을까?”
“기존 3D 모델은 왜 움직임을 잘 못 잡는 걸까?”

[핵심 설명: 기존에는 프레임 단위로 생성하는 비디오 디퓨전 트랜스포머를 3D 추적에 쓰려고 했는데, 이 논문은 ‘시간에 걸친 동일 포인트 추적’이라는 본질을 맞춰서, 단일 전방 전달로 전체 영상을 처리하는 새로운 구조로 뒤집었습니다.]

특히 주목할 점:

**스탠다드 스파스 및 디센스 3D 추적 벤치마크에서 SOTA 성과 달성**
**강력한 기존 방법보다 1.3배 빠르고, 피크 메모리 사용량은 4.6배 적음**

🎯 왜 이것이 게임 체인저인가? :

**기존 프레임 기반 생성 모델 → 시간 기반 포인트 추적 모델**

(즉, 각 프레임마다 새롭게 생성하던 방식 → 한 번의 전방 전달로 모든 프레임에서 동일 포인트를 추적하는 방식)

논문 보기 → GitHub 코드 보기 ⭐ 56 → Jisu Nam, Jahyeok Koo, Soowon Son 외 4명

🏛️ 빅테크

ByteDance Seed

🔥 "128K는 한계가 아닙니다. 512K까지 잘 쓰는 LVLM이 나왔습니다!"

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

🏛️ 소속: ByteDance Seed (빅테크)

🏷️ 핵심 키워드: long-context, vision-language model, continued pre-training, data mixture, generalization

💭 이런 질문을 해본 적 있나요?

“128K 맥락이 최대 한계인가요?”
“긴 문서를 처리할 때, OCR보다 VQA가 더 나은 이유는 뭐죠?”
“긴 맥락 모델을 훈련할 때, 짧은 데이터는 필요 없나요?”

[핵심 설명: 기존에는 긴 맥락 모델을 훈련할 때 긴 문서 데이터만 써야 했고, 짧은 데이터는 별로 필요 없었다고 여겨졌습니다. 이 논문은 긴 맥락 능력이 다양한 길이와 위치에서의 정보 검색 능력에 기반한다는 사실을 밝히며, 짧은 데이터 혼합 없이도 성능을 유지할 수 있음을 증명했습니다.]

특히 주목할 점:

128K 맥락 훈련 모델이 256K, 512K 맥락에서도 성능 유지하며, **128K 훈련 범위를 넘어선 512K까지 일반화 성능 유지**
**128K 맥락에서 긴 문서 VQA 점수 7.1% 향상** 달성, 짧은 데이터 혼합 없이도 성능 유지

🎯 왜 이것이 게임 체인저인가? :

“긴 맥락 모델을 훈련할 때, 긴 문서 데이터만 써야 한다” → “짧은 데이터 혼합 없이도 512K까지 일반화 가능하고, 7.1% 성능 향상 달성”

논문 보기 → Zhaowei Wang, Lishu Luo, Haodong Duan 외 9명

🏛️ 빅테크

Microsoft Research

🎯 “LLM이 스스로 문제를 풀 수 있다면, 왜 우리가 코드를 써야 해?”

Orchard: An Open-Source Agentic Modeling Framework

🏛️ 소속: Microsoft Research (빅테크)

🏷️ 핵심 키워드: agentic modeling, open-source framework, scalable training, sandbox environment, RLHF

💭 이런 질문을 해본 적 있나요?

“오픈소스 모델로도 AGENT가 잘 되는 거야?”
“내가 쓰는 코드가 아니라, AGENT가 스스로 코딩하는 걸로도 성공할 수 있을까?”
“비밀번호도 안 묻고, 프라이빗 데이터도 안 써도 AGENT가 잘 작동하는 게 가능한가?”

[핵심 설명: 기존에는 오픈소스 AGENT는 주로 오케스트레이션이나 평가에 집중했고, 실제 스케일링된 훈련은 비공개 코드나 프리미엄 서비스에 의존했지만, 이 논문은 오픈소스 환경 레이어 하나로 다양한 AGENT 훈련 파이프라인을 재사용 가능하게 구축했습니다.]

특히 주목할 점:

**Orchard-SWE**: Qwen3-30B-A3B-Thinking 기반으로 SFT 후 64.3%, SFT+RL 후 67.5% 성과 달성 — 오픈소스 모델 중 최고 성능 기록.
**Orchard-GUI**: 0.4K 트레이젝토리 + 2.2K 오픈엔드 태스크로 74.1% (WebVoyager), 67.0% (Online-Mind2Web), 64.0% (DeepShop) 성공률 달성 — 프리미엄 시스템과 경쟁 수준.

🎯 왜 이것이 게임 체인저인가? :

**“비공개 코드 + 프리미엄 서비스 의존 → 오픈소스 환경 + 재사용 가능한 훈련 레시피”**

논문 보기 → GitHub 코드 보기 ⭐ 23 → Baolin Peng, Wenlin Yao, Qianhui Wu 외 11명

🏛️ 빅테크

Microsoft

🚀 “사용자 행동 공간을 완전히 덮는 건, AI가 인간처럼 창의적으로 작업할 수 있게 만드는 열쇠다!”

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

🏛️ 소속: Microsoft (빅테크)

🏷️ 핵심 키워드: computer-use agent, GUI interaction, multimodal benchmark, data synthesis, action space coverage

💭 이런 질문을 해본 적 있나요?

“클릭만으로는 어떤 작업도 못하나요?”
“AI가 복잡한 화면 작업을 왜 실패하는 걸까요?”
“사용자 행동의 ‘꼬리’ 부분이 왜 가장 중요한가요?”

[핵심 설명: 기존에는 GUI 클릭 중심의 평가만으로 복잡한 작업을 판단했지만, 이 논문은 GUI, 텍스트, 표, 캔버스, 자연 이미지 등 5가지 모달리티와 다양한 액션(클릭, 드래그, 그리기 등)을 포함한 ‘전체 행동 공간’을 커버하는 새로운 벤치마크 CUActSpot을 제안합니다.]

특히 주목할 점:

Phi-Ground-Any-4B 모델이 32B 파라미터 이하의 오픈소스 모델보다 성능 우위를 보임 (수치 기반 비교 포함)
5가지 모달리티(화면, 텍스트, 표, 캔버스, 이미지)와 다양한 액션(클릭, 드래그, 그리기 등)을 커버하는 벤치마크 CUActSpot을 처음으로 제안 (기존 클릭 중심 벤치마크의 한계를 넘어선 다중 모달리티 커버)

🎯 왜 이것이 게임 체인저인가? :

기존 클릭 중심 평가 → 다중 모달리티 + 복잡한 액션(드래그, 그리기 등)을 포함한 전체 행동 공간 커버 벤치마크

논문 보기 → GitHub 코드 보기 ⭐ 34 → Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 외 14명

🏛️ 빅테크

ARC Lab, Tencent PCG

🖼️ “3D 모델이 ‘사진에 맞춰’ 생기면, 왜 그걸 ‘정확한 복제’라고 부르지 않나요?”

Pixal3D: Pixel-Aligned 3D Generation from Images

🏛️ 소속: ARC Lab, Tencent PCG (빅테크)

🏷️ 핵심 키워드: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

💭 이런 질문을 해본 적 있나요?

“3D 모델이 사진을 ‘잘 재현’한다고 해도, 픽셀 단위로 정확한가?”
“왜 3D 생성 모델은 2D 이미지의 픽셀과 3D 공간이 ‘매핑’되지 않는 걸까?”
“단일 이미지로 3D 장면을 생성할 때, 객체가 겹쳐도 구분이 안 되는 이유는?”

[핵심 설명: 기존에는 3D 모델을 캐나디언 포즈에서 생성하고 이미지 정보를 어텐션으로 주입했지만, 이 논문은 픽셀 정렬된 3D 생성 방식으로, 입력 이미지의 각 픽셀이 명확하게 3D 공간에 매핑되도록 설계했습니다.]

특히 주목할 점:

3D 생성의 ‘픽셀 정확도’를 27% 향상시켰으며, 복원 수준의 정확도(≈ reconstruction fidelity)에 도달
단일 이미지로 3D 장면 생성 시, 객체 분리 정확도가 94%로 높아져 기존 방법 대비 32% 개선

🎯 왜 이것이 게임 체인저인가? :

기존 3D 생성 모델이 ‘캐나디언 포즈에서 생성 → 이미지 정보 어텐션 주입’ → 픽셀-3D 매핑 불명확

→ Pixal3D가 ‘픽셀 정렬된 3D 공간 생성 → 백프로젝션 조건부 특징 맵핑’ → 픽셀 단위 정확한 3D 재현 가능

논문 보기 → GitHub 코드 보기 ⭐ 776 → Dong-Yang Li, Wang Zhao, Yuxin Chen 외 5명

🏛️ 빅테크

NVIDIA

🎬 "한 번의 훈련으로 1분 영상까지? 이건 AI 월드 모델링의 새 시대다"

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: world modeling, diffusion transformer, hybrid linear attention, camera control, video generation

💭 이런 질문을 해본 적 있나요?

“1분짜리 영상까지 학습시키는 모델이 있나요?”
“대규모 모델보다 빠르고 저렴하게 월드 모델링을 할 수 있을까?”
“실제 카메라 움직임을 정확히 따라갈 수 있는 모델은 진짜로 존재하나요?”

[핵심 설명: 기존에는 대규모 모델이 1분 영상 생성에 수일~주간 훈련과 수십 개의 GPU가 필요했지만, 이 논문은 2.6B 파라미터로 64개 H100 GPU에서 15일만에 훈련 완료하며, 단일 GPU로 60초 영상을 생성할 수 있게 뒤집었습니다.]

특히 주목할 점:

15일 동안 64개 H100 GPU로 훈련 완료, 1분 영상 생성은 단일 GPU로 가능 (비교 대상: 기존 대규모 모델은 수십 개 GPU 필요)
60초 720p 영상 생성에 34초 소요 (NVFP4 양자화 + RTX 5090 기반, 36배 높은 throughput 달성)

🎯 왜 이것이 게임 체인저인가? :

기존 방식: 대규모 모델이 1분 영상 생성에 수일 훈련 + 수십 개 GPU 필요 → 새 방식: 2.6B 파라미터 + 15일 훈련 + 단일 GPU로 1분 영상 생성 가능

논문 보기 → Haoyi Zhu, Haozhe Liu, Yuyang Zhao 외 6명

🏛️ 빅테크

IBM Research

🤖 “LLM이 도구를 쓰는 건 쉬워… 그런데 환경을 ‘예측’하는 건 왜 이렇게 어려운 걸까?”

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

🏛️ 소속: IBM Research (빅테크)

🏷️ 핵심 키워드: World Model, MCP, Agent, Task Planning, Execution Quality

💭 이런 질문을 해본 적 있나요?

“도구를 잘 쓰는 LLM이 왜 실패하는 걸까?”
“계획만 세우고 실행 안 할 때, 그 ‘계획’이 왜 틀리는 걸까?”
“환경을 예측하는 게 왜 이렇게 어려운데, 그게 왜 중요한 걸까?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다" 구조]

기존에는 LLM이 도구를 쓰는 ‘실행 단계’와 ‘계획 단계’를 분리해 처리했고, 환경의 변화를 예측하지 못해 성공률이 떨어졌습니다. 이 논문은 World Model을 MCP에 통합해, 실행 전에 ‘상태 전이를 시뮬레이션’하고 ‘계획을 레이턴트 공간에서 조정’함으로써, LLM이 환경을 예측하고 실행을 최적화하는 ‘예측형 자동화’를 가능하게 만들었습니다.

특히 주목할 점:

20개 이상의 MCP-Bench 태스크에서 도구 성공률이 평균 12.3% 상승, 최대 28.7% 향상
도구 파라미터 정확도가 평균 15.6% 개선, 특정 태스크에서 37.2% 향상

🎯 왜 이것이 게임 체인저인가? :

“계획 단계에서 환경을 무시하는 반응형 실행” → “World Model을 통한 상태 전이 시뮬레이션과 레이턴트 공간 계획 조정”

논문 보기 → Giridhar Ganapavarapu, Dhaval Patel

🏛️ 빅테크

Tencent Hunyuan

🚀 “모델 기반은 더 좋지 않아? 이 논문이 그 믿음을 뒤집어버렸다!”

Debiased Model-based Representations for Sample-efficient Continuous Control

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: model-based representation, debiased learning, prioritized replay, mutual information, continuous control

💭 이런 질문을 해본 적 있나요?

“모델 기반 방법은 학습 비용이 높아서 쓰지 않는데, 왜 이 논문은 오히려 더 효율적으로 만들었나?”
“기존 모델 기반 방법이 과거 경험에만 의존해서 편향이 생겼는데, 어떻게 해결했나?”
“하이퍼파라미터 하나로 모든 벤치마크에서 최고 성능을 달성한 게 진짜 가능한가?”

[핵심 설명: 기존에는 모델 기반 표현이 과거 경험에 과도하게 의존해 편향을 만들었고, 이 논문은 상태-행동 표현과 다음 상태 간의 상호 정보를 극대화하며 편향을 제거해 학습 효율과 성능을 동시에 높였습니다.]

특히 주목할 점:

**DR.Q는 단일 하이퍼파라미터 세트로 10개 이상의 연속 제어 벤치마크에서 최신 강력한 기준 모델과 동등하거나 우월한 성능을 보이며, 최대 2.8배 성능 향상**을 달성
**표본 효율성 측면에서 기존 모델 기반 방법보다 3.2배 적은 샘플로 동일한 성능을 달성** (replay buffer 기반 실험 기준)

🎯 왜 이것이 게임 체인저인가? :

**기존 모델 기반 방법 → 과거 경험에 과도한 의존으로 편향된 표현 → DR.Q는 상태-행동 표현과 다음 상태 간 상호 정보 극대화 + 페이드 우선 재플레이로 편향 제거**

논문 보기 → GitHub 코드 보기 ⭐ 5 → Jiafei Lyu, Zichuan Lin, Scott Fujimoto 외 5명

Weekly AI Papers — 2026-05-17

매일 받아보세요