2026-05-18

Weekly AI Papers — 2026-05-18

📄 10편 🏛️ 빅테크 10편

🏛️ 빅테크

NVIDIA

🧠 “비주얼 증거 없으면 2% 정답률? 멀티모달 기억의 진짜 힘을 보여주는 테스트”

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: multimodal memory, long-term reasoning, vision-language models, memory-augmented agents, cross-modal benchmark

💭 이런 질문을 해본 적 있나요?

“이전 대화에서 말한 그 이미지, 지금 다시 보여줘야 할 때 어떻게 기억해?”
“사진이 없어도 이전 대화 내용을 바탕으로 정답을 도출할 수 있을까?”
“사진이 있으면 정답률 80.4%인데, 사진 없으면 2%? 이건 진짜 놀라운 차이야.”

[핵심 설명: 기존에는 멀티모달 장기 기억을 ‘긴 문맥 모델’과 ‘메모리 보강 에이전트’ 두 방식으로 나눠 비교했지만, 이 논문은 첫 번째로 ‘진짜 멀티모달 증거가 필요한 질문’을 기준으로 두 방식을 체계적으로 비교해냈다.]

특히 주목할 점:

789개의 질문 중 80.4%는 이미지 증거가 필요했고, 이를 제거하면 최고 성능 모델도 정답률 2%로 폭락
27개의 LVLM과 7개의 메모리 에이전트를 평가해, 다중 세션 추론 성능은 대부분 30% 이하로 제한됨

🎯 왜 이것이 게임 체인저인가? :

“단순히 긴 문맥을 처리하는 모델 → 시각 증거를 기반으로 한 구조화된 멀티모달 검색 + 장기 기억 결합”

→ “다중 세션 대화에서 시각 정보를 잃지 않으면서도 장기 기억을 유지하는 하이브리드 아키텍처로 진화”

논문 보기 → GitHub 코드 보기 ⭐ 16 → Xiyu Ren, Zhaowei Wang, Yiming Du 외 11명

🏛️ 빅테크

NVIDIA

🎬 "영상 생성이 ‘몇 스텝’에 국한됐다면, 이제는 ‘언제든 스텝’으로 자유롭게 조정할 수 있다!"

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: video diffusion, flow map distillation, on-policy learning, any-step generation, ODE sampling

💭 이런 질문을 해본 적 있나요?

“몇 스텝만으로 영상 생성이 끝나는 모델이 왜 더 나은가요?”
“샘플링 스텝이 많아지면 성능이 떨어지는 모델, 그게 왜 문제인가요?”
“ODER를 기반으로 한 모델이 ‘모든 스텝’에 유연하게 대응할 수 있다면, 어떤 혁신이 생길까요?”

[핵심 설명: 기존에는 일정한 샘플링 스텝에만 최적화된 일관성 기반 디스틸레이션을 사용했지만, 이 논문은 전체 ODE 샘플링 경로를 최적화해 ‘언제든 스텝’으로 유연하게 확장합니다.]

특히 주목할 점:

1.3B~14B 파라미터 규모에서 **few-step regime에서 일관성 기반 모델과 성능을 동일하거나 초과** (14B 모델은 16스텝에서 93.7%의 FID 성능)
**샘플링 스텝 수가 증가할수록 성능이 선형적으로 향상** (16스텝에서 93.7% → 32스텝에서 96.2% FID)

🎯 왜 이것이 게임 체인저인가? :

**기존 방식 → 일관성 기반 디스틸레이션(고정 스텝에 최적화)** → **새 방식 → 흐름 맵 기반 디스틸레이션(ODER 전체 경로 최적화)**

논문 보기 → GitHub 코드 보기 ⭐ 258 → Yuchao Gu, Guian Fang, Yuxin Jiang 외 4명

🏛️ 빅테크

Google

🚀 “3D 추적에 디퓨전 모델을 쓰다니… 이거 진짜 흐름이 뒤집어졌네!”

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

🏛️ 소속: Google (빅테크)

🏷️ 핵심 키워드: video diffusion, 3D tracking, dense point tracking, temporal alignment, LoRA fine-tuning

💭 이런 질문을 해본 적 있나요?

“왜 3D 추적은 항상 ‘프레임 단위 생성’ 모델에 의존해야 하나요?”
“실제 영상에서 배운 움직임 prior가 3D 추적에 왜 없었나요?”
“이거 훈련 시간이 길어도 성능이 뛰어나면, 왜 기존 모델들이 쓰이지 않나요?”

기존에는 3D 추적 모델이 프레임 단위로 생성하는 디퓨전 모델을 사용해도, 물리적 포인트를 시간에 따라 일관되게 추적할 수 없었고, 대부분 학습 데이터가 합성 영상이나 정적 다중 시점 이미지였기에 실제 움직임을 잘 모방하지 못했다. 이 논문은 ‘비디오 디퓨전 트랜스포머’를 단순히 재사용하는 게 아니라, **참조 프레임 기준으로 물리적 포인트를 추적하는 방식으로 완전히 재설계**해, 한 번의 전방향 패스로 전체 영상의 3D 포인트 추적을 완성한다.

특히 주목할 점:

**기존 최강 모델 대비 1.3배 빠른 속도**와 **4.6배 적은 피크 메모리 사용**
**스프레스 및 덩스 3D 추적 벤치마크에서 SOTA 성능 달성**

🎯 왜 이것이 게임 체인저인가? :

**프레임 기준 생성 모델 → 참조 프레임 기준 추적 모델**

논문 보기 → GitHub 코드 보기 ⭐ 60 → Jisu Nam, Jahyeok Koo, Soowon Son 외 4명

🏛️ 빅테크

ByteDance Seed

🧠 “128K 막아두면 끝? 아니, 512K까지 쓰는 법을 알아야 해!”

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

🏛️ 소속: ByteDance Seed (빅테크)

🏷️ 핵심 키워드: long-context, vision-language model, continued pre-training, generalization, multimodal retrieval

💭 이런 질문을 해본 적 있나요?

“128K 문맥이 최대한이야, 더 길게 쓰려면 어떻게 해?”
“긴 문서 이해에 OCR보다 VQA가 더 좋다는데, 왜?”
“긴 문맥 모델을 훈련할 때 짧은 데이터도 필요할까?”

기존에는 긴 문맥 모델을 훈련할 때 긴 데이터만 쓰는 게 최선이었다. 이 논문은 “짧은 데이터는 필요 없어”라는 결론을 내리며, 128K 문맥 모델을 256K, 512K까지 자연스럽게 확장하는 방법을 제시했다.

특히 주목할 점:

128K 문맥 훈련 모델이 256K, 512K 문맥에서도 성능 유지 → **128K 훈련 모델이 512K 문맥에서도 7.1% VQA 점수 향상**
5B-token 예산으로 7B 모델을 128K 문맥으로 확장 → **5B 토큰만으로 128K 문맥 모델 생성**

🎯 왜 이것이 게임 체인저인가? :

“긴 문맥 데이터만 쓰는 훈련 방식” → “짧은 데이터 혼합 없이도 긴 문맥 + 다양한 태스크에서 성능 유지”

논문 보기 → Zhaowei Wang, Lishu Luo, Haodong Duan 외 9명

🏛️ 빅테크

Microsoft Research

🎯 "LLM이 스스로 문제를 풀 수 있다면, 왜 우리 인간이 계속 코드를 써야 해?"

Orchard: An Open-Source Agentic Modeling Framework

🏛️ 소속: Microsoft Research (빅테크)

🏷️ 핵심 키워드: agentic modeling, open-source framework, scalable training, credit-assignment, RL with distilled trajectories

💭 이런 질문을 해본 적 있나요?

“오픈소스로도 LLM이 스스로 문제를 풀 수 있을까?”
“왜 모든 최고 성능 모델이 프라이빗 코드에만 의존하는 걸까?”
“사용자 환경에서 AGENT가 실제로 성공할 수 있을까?”

[핵심 설명: 기존에는 프라이빗 코드와 고비용 인프라에 의존해 AGENT를 훈련했지만, 이 논문은 오픈소스 + 가벼운 환경 레이어로 **스케일링 가능한 AGENT 훈련을 가능하게** 만들었습니다.]

특히 주목할 점:

**Orchard-SWE**: Qwen3-30B-A3B-Thinking 기반으로 SFT 후 64.3%, SFT+RL 후 67.5% 성과 달성 → 오픈소스 모델 중 최고 기록
**Orchard-GUI**: 0.4K distilled trajectories + 2.2K open-ended tasks로 74.1% (WebVoyager), 67.0% (Online-Mind2Web), 64.0% (DeepShop) 성공률 달성 → 프리미엄 시스템과 경쟁 수준

🎯 왜 이것이 게임 체인저인가? :

**“프라이빗 코드 + 고비용 인프라로만 AGENT 훈련이 가능했다”** → **“오픈소스 환경 레이어 + 가벼운 훈련 데이터로도 AGENT 성능을 끌어올릴 수 있다”**

논문 보기 → GitHub 코드 보기 ⭐ 31 → Baolin Peng, Wenlin Yao, Qianhui Wu 외 11명

🏛️ 빅테크

NVIDIA

🎬 “1분 영상 생성에 36배 빠르게? 이건 뭐지… 왜 이걸 안 알았을까?”

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: world modeling, diffusion transformer, camera control, linear attention, video generation

💭 이런 질문을 해본 적 있나요?

“대규모 월드 모델링이 왜 이렇게 비싸고 느리지?”
“한 번에 60초 영상 생성하려면 GPU 몇 개가 필요하지 않나?”
“720p 영상까지 높은 품질로 만들면서도, 단일 GPU로 빠르게 처리할 수 있을까?”

[핵심 설명: 기존에는 대규모 모델과 수십 개의 GPU가 필요했지만, 이 논문은 2.6B 파라미터로 1분 영상 생성을 단일 GPU에서 빠르게 완성합니다.]

특히 주목할 점:

15일 동안 64개의 H100 GPU로 훈련 완료, 60초 영상 생성은 단일 GPU로 가능
34초 내에 RTX 5090 + NVFP4 양자화로 720p 60초 영상 노이즈 제거 가능

🎯 왜 이것이 게임 체인저인가? :

“대규모 산업 기준 모델(예: LingBot-World)과 동일한 시각 품질” → “36배 높은 처리 속도로 스케일링 가능”

논문 보기 → Haoyi Zhu, Haozhe Liu, Yuyang Zhao 외 6명

🏛️ 빅테크

Microsoft

🤖 “사용자 행동 공간을 완전히 덮는 게, AI가 인간처럼 컴퓨터를 쓰는 데 핵심이야?”

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

🏛️ 소속: Microsoft (빅테크)

🏷️ 핵심 키워드: computer-use agent, GUI interaction, data synthesis, benchmark, multimodal action

💭 이런 질문을 해본 적 있나요?

“클릭만으로도 복잡한 작업을 완료할 수 있을까?”
“AI가 화면에서 드래그, 그림 그리기, 표 조작까지 할 수 있을까?”
“실제 사용자들이 하는 다양한 행동을 AI가 학습해야 하는데, 데이터가 부족한 걸까?”

[핵심 설명: 기존에는 GUI 클릭 중심의 벤치마크로 제한된 AI가 인간의 복잡한 행동 공간을 덮지 못했으나, 이 논문은 5가지 모달리티(화면, 텍스트, 표, 캔버스, 자연 이미지)와 다양한 액션(클릭, 드래그, 그림 그리기 등)을 포함한 ‘CUActSpot’을 통해 AI가 인간의 행동 공간을 완전히 커버할 수 있게 했다.]

특히 주목할 점:

**Phi-Ground-Any-4B 모델이 32B 파라미터 이하 오픈소스 모델보다 성능 우위를 보임**
**5가지 모달리티와 다양한 액션(클릭, 드래그, 그림 그리기 등)을 포함한 벤치마크 CUActSpot을 제안**

🎯 왜 이것이 게임 체인저인가? :

**클릭 중심의 GUI 벤치마크 → 5모달리티 + 다중 액션을 통한 인간 행동 공간 완전 커버**

논문 보기 → GitHub 코드 보기 ⭐ 34 → Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 외 14명

🏛️ 빅테크

ARC Lab, Tencent PCG

🖼️ “3D 모델이 사진을 ‘정확히’ 재현하는 게 불가능하다? 이 논문이 그 벽을 무너뜨립니다.”

Pixal3D: Pixel-Aligned 3D Generation from Images

🏛️ 소속: ARC Lab, Tencent PCG (빅테크)

🏷️ 핵심 키워드: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

💭 이런 질문을 해본 적 있나요?

“3D 모델이 사진과 똑같이 보이려면 어떻게 해야 할까?”
“왜 3D 생성 모델이 사진의 픽셀을 정확히 따라가지 못하는 걸까?”
“단일 이미지로 3D 장면을 만들 때, 어떤 기술이 ‘신뢰할 수 있는’ 결과를 보장할 수 있을까?”

[핵심 설명: 기존에는 3D 모델이 캐논리컬 포즈에서 생성하고, 이미지 정보를 어텐션으로 주입해 픽셀-3D 대응이 불명확했지만, 이 논문은 픽셀 정렬된 3D 생성을 통해 이미지 뷰와 일치하는 3D 공간에서 직접 생성합니다.]

특히 주목할 점:

**픽셀 정렬 3D 생성으로 이미지의 픽셀 수준 신뢰도를 87% 향상** — 기존 모델 대비 2.3배 높은 픽셀 정확도를 달성
**다중 뷰 합성에서 3D 장면 생성 성공률 94%** — 100개 이상의 뷰에서 3D 객체 분리와 장면 복원을 동시에 달성

🎯 왜 이것이 게임 체인저인가? :

**기존 방식: 캐논리컬 공간에서 3D 생성 → 이미지 정보를 어텐션으로 주입**

**새 방식: 픽셀 정렬된 3D 공간에서 직접 생성 → 픽셀-3D 대응을 명확히 해 정확도 극대화**

논문 보기 → GitHub 코드 보기 ⭐ 922 → Dong-Yang Li, Wang Zhao, Yuxin Chen 외 5명

🏛️ 빅테크

IBM Research

🚀 “LLM이 도구를 쓰는 게 아니라, 세상을 예측해서 쓰는 거야?”

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

🏛️ 소속: IBM Research (빅테크)

🏷️ 핵심 키워드: World Model, MCP, Agent, Task Planning, Execution Quality

💭 이런 질문을 해본 적 있나요?

“도구를 쓰는 순간마다 계획을 다시 짜야 하나요?”
“LLM이 환경을 이해하는 게 아니라, 그냥 반응하는 거 아닌가요?”
“계획은 잘 짜는데, 실행이 안 되는 이유는 무엇일까?”

[핵심 설명: 기존에는 LLM이 도구를 호출할 때 환경을 단순히 반응적으로 처리했고, 장기적 계획은 무시됐습니다. 이 논문은 World Model을 도입해 LLM이 실행 전에 ‘상태 전이를 시뮬레이션’하고 ‘계획을 미리 조정’할 수 있게 했습니다.]

특히 주목할 점:

20개 이상의 MCP-Bench 태스크에서 도구 성공률이 평균 **27% 증가** (ReAct 기반)
도구 파라미터 정확도가 **34% 향상** (SPIRAL 기반 + 3개 World Model)

🎯 왜 이것이 게임 체인저인가? :

“단순 반응형 실행 → 실행 전 상태 시뮬레이션 + 계획 조정”

이제 LLM은 환경을 ‘예측’하고, ‘조정’하며, ‘실행’하는 3단계를 하나의 프로세스로 통합합니다.

논문 보기 → Giridhar Ganapavarapu, Dhaval Patel

🏛️ 빅테크

Tencent Hunyuan

🔥 "모델 기반은 빠르게 학습하지만, 왜偏偏(왜偏偏) 빈번한 오류를 내뱉는 걸까?"

Debiased Model-based Representations for Sample-efficient Continuous Control

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: model-based representation, debiasing, Q-learning, experience replay, continuous control

💭 이런 질문을 해본 적 있나요?

“모델 기반 학습은 왜 빠르게 학습하지만 성능이 떨어지는 걸까?”
“리플레이 버퍼에서 이른 시기의 경험을 과도하게 사용하면 어떤 문제가 생기나요?”
“모델 기반과 모델 프리의 장점을 동시에 잡는 방법은 정말로 가능할까?”

[핵심 설명: "기존에는 모델 기반 표현이 빠른 학습을 위해 리플레이 버퍼의 이른 경험을 과도하게 사용해 오류를 줄이려 했지만, 이 논문은 이 오류를 ‘정보 편향’으로 명확히 정의하고, ‘표현의 상호 정보’와 ‘변이 최소화’를 동시에 최적화함으로써 학습의 정확도와 효율성을 동시에 끌어올립니다."]

특히 주목할 점:

DR.Q는 단일 하이퍼파라미터 세트로 여러 연속 제어 벤치마크에서 최신 강력한 기준 모델과 동등하거나 그 이상의 성능을 보이며, **최대 20% 이상의 성능 향상**을 기록
**리플레이 버퍼에서 경험의 우선순위를 희미하게 조정**해 과도한 초기 경험에 의한 편향을 줄임으로써, 학습 과정의 안정성을 3배 이상 향상

🎯 왜 이것이 게임 체인저인가? :

"모델 기반 표현이 리플레이 버퍼의 이른 경험에 과도하게 의존해 편향을 일으키는 방식" → "표현의 상호 정보와 변이를 동시에 최적화하며, 경험 우선순위를 희미하게 조정해 편향을 제거하는 새로운 학습 파라미터 조정 방식"

논문 보기 → GitHub 코드 보기 ⭐ 5 → Jiafei Lyu, Zichuan Lin, Scott Fujimoto 외 5명

Weekly AI Papers — 2026-05-18

매일 받아보세요