2026-06-01

Weekly AI Papers — 2026-06-01

📄 10편 🏛️ 빅테크 10편 🔥 트렌딩 3편

🏛️ 빅테크 🔥 트렌딩 208+

Microsoft Research

🚀 "LLM 에이전트의 스킬은 이제 더 이상 '손으로 만든다'는 시대가 끝났다 — 스스로 진화하는 학습 기제로 바뀐다!"

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

🏛️ 소속: Microsoft Research (빅테크)

🏷️ 핵심 키워드: skill optimization, text-space optimizer, self-evolving agent, bounded edits, validation-driven learning

💭 이런 질문을 해본 적 있나요?

“LLM 에이전트의 스킬을 향상시키려면, 어떻게 해야 할까?”
“어떤 방식으로 스킬을 ‘훈련’해야, 실제로 성능이 올라갈까?”
“스킬 업데이트가 실패할 때, 어떻게 복구해야 할까?”

[핵심 설명: 기존에는 스킬을 수동으로 조정하거나, 한 번만 생성하거나, 제한된 자율 진화 방식으로 개선했지만, 이 논문은 텍스트 공간에서 독립적인 최적화 모델을 도입해, 스킬 문서를 ‘편집’하는 방식으로 학습을 구현했습니다. 이 방식은 테스트에서 성능이 향상될 때만 업데이트되며, 훈련 중에는 전혀 추론 시간에 모델 호출을 사용하지 않습니다.]

특히 주목할 점:

GPT-5.5에서 직접 챗봇 모드에서 평균 스킬 없이의 정확도를 +23.5 포인트 향상
Codex 에이전트 루프 내에서 +24.8 포인트 향상, Claude Code 내에서는 +19.1 포인트 향상
52개의 (모델 × 벤치마크 × 실행 환경) 셀 중 모든 셀에서 최고 또는 동률 성과, 7개의 타겟 모델과 6개의 벤치마크에서 1위를 차지

🎯 왜 이것이 게임 체인저인가? :

“스킬을 수동으로 조정하거나, 훈련된 모델에 의존하는 방식” → “텍스트 공간에서 독립 최적화 모델이 스킬 문서를 편집하며, 성능 향상만 인정하는 자동화된 진화 시스템”

논문 보기 → GitHub 코드 보기 ⭐ 3,591 → Yifan Yang, Ziyang Gong, Weiquan Huang 외 12명

🏛️ 빅테크 🔥 트렌딩 106+

Microsoft

🚀 “3.8B 파라미터로 6B 이상 모델을 꺾는 건, AI 훈련의 ‘에너지 절약 모드’가 뜬 거야?”

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

🏛️ 소속: Microsoft (빅테크)

🏷️ 핵심 키워드: text-to-image, training efficiency, compact model, semantic VAE, GPT-4 captioning

💭 이런 질문을 해본 적 있나요?

“왜 6B 모델이 더 좋다고 생각했는데, 3.8B 모델이 더 빠르고 저비용으로 SOTA를 달성하는 걸까?”
“T2I 모델 훈련에서 ‘데이터 밀도’가 성능에 얼마나 큰 영향을 미치는 걸까?”
“GPU 한 대로 1024×1024 이미지를 3초 내로 빠르게 뽑는 게, 현실이야?”

[핵심 설명: 기존에는 대규모 모델이 성능과 효율을 동시에 달성해야 했는데, 이 논문은 작은 모델이 더 빠르고 저비용으로 SOTA 성능을 달성함]

특히 주목할 점:

3.8B 파라미터 모델이 Z-Image(6B+)보다 19.3%의 훈련 컴퓨팅 리소스만으로 동일한 성능을 달성
1024×1024 이미지 생성이 단일 NVIDIA H100 GPU에서 3.15초, 디스티л레이션 버전은 0.84초(4단계 추론)에 완료

🎯 왜 이것이 게임 체인저인가? :

“대규모 모델의 성능 경쟁 → 소형 모델의 효율성 경쟁”

기존에는 6B 이상 모델이 T2I 성능의 기준이었으나, 이 논문은 3.8B 모델이 훈련 자원을 19.3%로 줄여도 SOTA를 넘어서며, 추론 속도까지 3.7배 향상시키는 ‘효율성의 새 패러다임’을 제시

논문 보기 → GitHub 코드 보기 ⭐ 207 → Dong Chen, Fangyun Wei, Ziyu Wan 외 18명

🏛️ 빅테크 🔥 트렌딩 407+

NVIDIA

🎮 “여러 사람이 동시에 움직이는 게임도, AI가 하나의 ‘세계 모델’로 완전히 제어할 수 있을까?”

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: multi-agent world modeling, rotary encoding, sparse attention, diffusion distillation, real-time generation

💭 이런 질문을 해본 적 있나요?

“2명 플레이어만 지원하는 AI 세계 모델, 4명으로 확장할 수 있을까?”
“모든 플레이어가 서로 영향을 주는 게임에서, 각각의 행동을 독립적으로 제어할 수 있을까?”
“AI가 여러 캐릭터를 동시에 제어하면서도, 성능이 떨어지지 않게 할 수 있을까?”

기존에는 단일 에이전트 중심의 세계 모델이 주류였고, 여러 에이전트가 동시에 움직이는 환경은 복잡한 ‘모든 대 모든’ 주의 구조로 처리됐습니다.

이 논문은 ‘Simplex Rotary Agent Encoding’과 ‘Sparse Hub Attention’을 통해 에이전트를 독립적으로 제어하면서도, 계산 비용을 선형으로 줄이고, 24 FPS 실시간 생성까지 가능하게 했습니다.

특히 주목할 점:

4명 플레이어 환경에서 기존 슬롯 기반 모델보다 **비디오 신뢰도 38% 향상**
**모든 에이전트 간 주의 비용을 제곱에서 선형으로 줄여** 10개 에이전트 시점에서도 실시간 처리 가능

🎯 왜 이것이 게임 체인저인가? :

기존 방식 → “모든 에이전트가 서로 주의를 주고받는 밀도 높은 구조”

새 방식 → “학습 가능한 허브 토큰을 통해 에이전트 간 주의를 중계해 계산 비용을 선형으로 줄임”

논문 보기 → Fangfu Liu, Kai He, Tianchang Shen 외 7명

🏛️ 빅테크

Tencent

🤖 "멀티모달 모델링의 진짜 미래는 ‘자연스러운 통합’이 아니라 ‘자신의 DNA에 모달리티를 박아넣는 것’이야"

Toward Native Multimodal Modeling: A Roadmap

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: native multimodal modeling, architectural nativity, multi-to-text, multi-to-target, multi-to-multi

💭 이런 질문을 해본 적 있나요?

“왜 이미지+텍스트 모델이 오히려 더 나은가요?”
“모든 모달리티를 하나로 합치는 건 불가능한가요?”
“이미지 생성 모델이 텍스트 생성 모델을 벗어나는 건 진짜 가능할까?”

[핵심 설명: 기존에는 모달리티를 끝단에서 합치는 ‘레이트 퓨전’이 주류였는데, 이 논문은 모달리티를 ‘본질적으로 통합’하는 ‘네이티브 멀티모달 모델링(NMM)’로 패러다임을 전환합니다.]

특히 주목할 점:

**3가지 네이티브 아키텍처 분류** (Multi-to-Text, Multi-to-Target, Multi-to-Multi)를 체계적으로 정의하며, 각각의 모달리티 처리 방식을 명확히 구분함
**엔드-to-엔드 파이프라인**을 공개하며, 아키텍처 조율, 대량 데이터 채집, 전체 스택 트레이닝 레시피, 인퍼런스/배포, 평가까지 산업용 수준으로 구축

🎯 왜 이것이 게임 체인저인가? :

**“모달리티를 끝단에서 합치는 레이트 퓨전” → “모달리티를 아키텍처 내부에 본질적으로 통합하는 네이티브 멀티모달 모델링”**

논문 보기 → GitHub 코드 보기 ⭐ 43 → Siyu An, Junru Lu, Junnan Dong 외 18명

🏛️ 빅테크

NVIDIA

🖼️ “왜 멀리 있는 건 위로 보이는 걸까? VLM의 ‘공간 오류’가 숨은 이유를 밝혔다!”

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

🏛️ 소속: NVIDIA (빅테크)

🏷️ 핵심 키워드: spatial reasoning, representation disentanglement, perspective bias, VLM, shortcut bias

💭 이런 질문을 해본 적 있나요?

“이미지 속 ‘위’와 ‘멀리’가 같은 방향으로 인식되는 건 왜일까?”
“모델이 정답을 맞추는 건 공간 이해 때문일까, 아니면 단순한 통계 패턴 때문일까?”
“모든 VLM이 똑같이 공간을 인식하는 건가? 아니면 내부 구조가 달라서 성능이 달라지는 걸까?”

[핵심 설명: 기존에는 VLM이 공간 추론 성능을 잘 내는 걸 ‘3D 구조 이해’로 해석했지만, 이 논문은 ‘사진의 시점 편향’이라는 단순한 통계적 단서에 의존한다는 사실을 밝혔다.]

특히 주목할 점:

**모델이 ‘수직 위치’와 ‘거리’를 혼동하는 현상은 전체 VLM에서 일관되게 나타나며, 이 편향이 존재하는 경우 정답률이 15% 이상 떨어지는 경우가 있음**
**데이터 확장(Scaling)이 일어나도 이 편향은 강화되며, 기존 테스트 세트의 ‘자연 이미지 편향’으로 인해 정확도 향상이 왜곡되는 현상이 관찰됨**

🎯 왜 이것이 게임 체인저인가? :

**기존 방식 → ‘정답률 향상’만으로 공간 추론 능력을 판단**

**새 방식 → ‘공간 축 분리 여부’를 측정해 모델의 내부 구조와 신뢰성 간의 직접적 연관성을 밝힘**

논문 보기 → GitHub 코드 보기 ⭐ 8 → Cheolhong Min, Jaeyun Jung, Daeun Lee 외 5명

🏛️ 빅테크

Tencent Hunyuan

🤖 "생각보다 깊이가 필요했나요? VLM이 물리세계에서 ‘무너지지 않게’ 움직이려면, 이건 필수입니다."

GEM: Generative Supervision Helps Embodied Intelligence

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: embodied vision-language model, generative supervision, depth map generation, action planning, robotic execution

💭 이런 질문을 해본 적 있나요?

“VLM이 말로만 이해하면 로봇은 움직이지 않아요. 왜?”
“VLM이 물리적 공간을 이해하려면, 어떤 데이터가 필요할까요?”
“생각보다 로봇이 ‘깊이’를 모르면, 어떻게 ‘실패’하지 않게 할 수 있을까요?”

[핵심 설명: 기존에는 VLM이 텍스트 기반으로 사고하고, 물리적 공간은 외부 데이터로 보완해야 했는데, 이 논문은 ‘깊이 지도 생성’이라는 생성적 감독을 VLM 학습 자체에 직접 통합함으로써, 물리적 공간 이해와 행동 실행을 동시에 강화했습니다.]

특히 주목할 점:

GEM-4M 데이터셋을 기반으로 훈련한 모델이, 4개의 대표적인 Embodied Intelligence Benchmarks에서 기존 최고 성과보다 평균 **23.7% 개선**을 달성함.
실제 환경에서 테스트된 GEM-VLA 모델은, 기존 기준 대비 **72.1%의 성공률**을 기록하며, 실패율이 27.9%로 낮아짐.

🎯 왜 이것이 게임 체인저인가? :

“텍스트 기반 VLM이 물리적 공간을 외부 데이터로 보완해야 했다” → “VLM이 직접 깊이 지도를 생성하며, 공간과 행동을 동시에 학습하게 됨”

논문 보기 → GitHub 코드 보기 ⭐ 35 → Ruowen Zhao, Bangguo Li, Zuyan Liu 외 9명

🏛️ 빅테크

alibaba-inc

🧠 “LLM 메모리 오류는 ‘사람이 찾기 힘든’ 문제… 그런데 이 논문은 ‘자동으로 추적하고 수정’해버렸다!”

MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: memory tracing, error attribution, LLM memory systems, operational information flow, closed-loop optimization

💭 이런 질문을 해본 적 있나요?

“왜 내 LLM이 긴 문맥에서 오류를 뱉는 걸까?”
“RAG나 Long-Context 같은 메모리 시스템에서 실패 원인을 어떻게 추적해야 할까?”
“오류를 찾는 게 아니라, 오류를 ‘수정’하는 시스템이 있을까?”

[핵심 설명: 기존에는 메모리 오류를 수동으로 추적하고 분석해야 했는데, 이 논문은 메모리 흐름을 ‘실행 가능한 그래프’로 변환해 자동으로 오류 원인을 추적하고, 이를 기반으로 프롬프트를 자동 최적화해 성능을 높이는 클로즈드 루프 시스템을 구축했다.]

특히 주목할 점:

메모리 실패 원인을 정밀하게 분석해 **end-task performance를 7.62% 향상**시켰다.
MemTraceBench를 통해 **4가지 대표 메모리 시스템(Long-Context, RAG, Mem0, EverMemOS)에서 시스템적인 오류 패턴**을 규명했다.

🎯 왜 이것이 게임 체인저인가? :

**수동 오류 분석 → 자동 메모리 흐름 추적 + 원인 분석 + 프롬프트 최적화 클로즈드 루프**

이제 메모리 오류는 ‘디버깅의 고통’이 아니라 ‘성능 향상의 기회’로 전환된다.

논문 보기 → GitHub 코드 보기 ⭐ 30 → Xinle Deng, Ruobin Zhong, Hujin Peng 외 15명

🏛️ 빅테크

Tencent Hunyuan

🎨 “AI가 그림을 그리는 거라기보다… 아티스트가 코드로 캔버스를 조작하는 거야?”

GenClaw: Code-Driven Agentic Image Generation

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: code-driven, agentic image generation, visual reasoning, multimodal agent, executable sketching

💭 이런 질문을 해본 적 있나요?

“AI가 이미지를 생성할 때, 왜 내가 ‘다시 프롬프트를 바꿔야’ 하는 거야?”
“왜 AI는 내 원하는 그림을 ‘직접 조작’할 수 없지? 페인트 브러시처럼 쓰고 싶어!”
“이미지 생성이 ‘검은 상자’인 이유가 뭐야? 코드로 캔버스를 직접 조작할 수 있다면?”

[핵심 설명: 기존에는 AI가 텍스트 기반으로 이미지를 생성하고, 결과를 개선하려면 프롬프트를 반복해서 바꿔야 했는데, 이 논문은 AI를 ‘코드로 조작 가능한 아티스트’로 전환시켜, 개념 → 스케치 → 컬러링의 단계를 거치며 인간과 같은 창작 흐름을 구현했습니다.]

특히 주목할 점:

코드(예: SVG, HTML, Three.js)를 활용해 시각 스케치를 생성하는 과정에서, 85%의 사용자들이 “직관적이고 제어 가능한 결과”를 경험했습니다.
최종 이미지 생성 단계에서, 92%의 경우 텍스처와 물리적 재현성(photorealism)이 기존 모델 대비 3.7배 향상되었습니다.

🎯 왜 이것이 게임 체인저인가? :

“검은 상자 기반의 프롬프트 반복” → “코드로 조작 가능한 시각 캔버스 + 생성 모델의 결합”

논문 보기 → GitHub 코드 보기 ⭐ 96 → Junyan Ye, Jun He, Zilong Huang 외 4명

🏛️ 빅테크

alibaba-inc

🧠 “LoRA가 기억하는 방식, 그게 진짜 기억인가? 수학적으로 증명된 ‘메모리 법칙’이 나왔습니다!”

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: LoRA, Parametric Memory, Power Law, Fine-tuning, Token-level Recall

💭 이런 질문을 해본 적 있나요?

LoRA로 튜닝할 때, 왜 일부 토큰은 완전히 잊히고 일부는 꼭 기억하나요?
‘기억’이란 단어가 모델 내부에서 무슨 수식으로 정의되나요?
토큰별로 메모리 용량이 다르다면, 어떻게 효율적으로 배분해야 하나요?

[핵심 설명: 기존에는 LoRA의 메모리 용량과 동작 메커니즘을 정량화하지 못했으나, 이 논문은 파라미터 수와 시퀀스 길이를 연결하는 ‘파라메트릭 메모리 법칙’을 제시함]

특히 주목할 점:

토큰 수준 분석에서, 예측 확률 p > 0.5일 때 greedy decoding에서 정확한 회수율이 98.7%에 달함
MemFT 전략 적용 시, 메모리 신뢰도 17.3% 향상, 트레이닝 예산 재분배로 22.1%의 계산 효율 증가

🎯 왜 이것이 게임 체인저인가? :

기존 LoRA는 토큰별 기억력 차이를 무시하고 균일하게 트레이닝 → 이 논문은 ‘p > 0.5’ 임계값 기반으로 예산을 토큰별로 동적으로 재배분

논문 보기 → GitHub 코드 보기 ⭐ 3 → Ziwen Xu, Haiwen Hong, Linsong Yu 외 4명

🏛️ 빅테크

Microsoft Research

🧠 “AI가 경험을 쌓아서 스킬을 만든다고 해도… 그 스킬이 정말로 유용한가?”

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

🏛️ 소속: Microsoft Research (빅테크)

🏷️ 핵심 키워드: skill extraction, model-generated skills, agent evaluation, negative transfer, utility-grounded framework

💭 이런 질문을 해본 적 있나요?

“모델이 만든 스킬이 실제로 도움이 되는가?”
“어떤 모델이 스킬을 잘 추출하더라도, 다른 모델이 쓰면 오히려 성능이 떨어지는 이유는?”
“스킬의 품질이 모델 규모나 기반 태스크 강도에 따라 달라지는가?”

[핵심 설명: 기존에는 스킬 추출과 소비의 성능을 분리해 평가했지만, 이 논문은 전체 생애주기(경험 생성 → 추출 → 소비)를 체계적으로 분석해 ‘실제 유효성’을 측정했습니다.]

특히 주목할 점:

**모델 생성 스킬은 평균적으로 15.2% 성능 향상**을 가져왔지만, **부정적 전이율은 최대 37.1%**로 비정상적인 성능 저하가 발생
**5개의 다양한 애전지적 도메인에서 100개 이상의 스킬 쌍을 실험**해, 추출자와 소비자 간의 비대칭성(강 추출자 = 약 소비자 등)을 100% 확인

🎯 왜 이것이 게임 체인저인가? :

“스킬을 만드는 모델의 크기나 성능이 중요하다” → “스킬의 실제 유효성(사용자에게 주는 실질적 가치)이 핵심”

논문 보기 → GitHub 코드 보기 ⭐ 56 → Zisu Huang, Jingwen Xu, Yifan Yang 외 13명

Weekly AI Papers — 2026-06-01

매일 받아보세요