2026-05-09

Weekly AI Papers — 2026-05-09

📄 10편 🏛️ 빅테크 6편 🔥 트렌딩 3편

🏛️ 빅테크

Tencent Hunyuan

🔍 "딥 서치가 모델의 ‘뇌’가 아니라 ‘손’이 되는 순간, 검색이 문제 해결의 핵심이 됩니다"

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: multimodal search, agentic reinforcement learning, open-source recipe, deep search, trajectory synthesis

💭 이런 질문을 해본 적 있나요?

“검색은 단순히 정보 찾기야, 왜 이렇게 복잡한 모델이 필요하지?”
“내가 쓰는 모델이 검색을 어떻게 해야 할지, 어떻게 학습하는지 모르겠어.”
“자기만의 검색 에이전트를 만들고 싶은데… 데이터나 트레이닝 방법이 너무 닫혀 있잖아.”

기존에는 검색이 모델의 부가 기능이었고, 트레이닝 데이터나 파이프라인은 비공개로 남아 있었지만, 이 논문은 “모든걸 오픈”한 체계를 제안해, 누구나 동일한 성능을 내는 딥 서치 에이전트를 재현할 수 있게 했습니다.

특히 주목할 점:

7개의 벤치마크에서 평균 10점 이상 성능 향상
SearchVL-SFT-36k, SearchVL-RL-8k 데이터셋을 기반으로 훈련 → RL 데이터는 8,000개의 트레이닝 트랙이 포함됨

🎯 왜 이것이 게임 체인저인가? :

“비공개 데이터 + 복잡한 파이프라인 + 검색 실패에 대한 무관심” → “오픈 데이터 + 트랙 합성 + 툴 실패에 대한 장애물 제거 알고리즘”

논문 보기 → GitHub 코드 보기 ⭐ 99 → Shuang Chen, Kaituo Feng, Hangting Chen 외 7명

🏛️ 빅테크

ByteDance

🧠 “비전 트랜스포머가 말할 수 있다? 그게 진짜 가능하다는 거야!”

Let ViT Speak: Generative Language-Image Pre-training

🏛️ 소속: ByteDance (빅테크)

🏷️ 핵심 키워드: Vision Transformer, Generative Pretraining, Multimodal LLM, Language Modeling, OCR

💭 이런 질문을 해본 적 있나요?

“비전 모델은 이미지만 보는 걸로 끝이야?”
“텍스트와 이미지를 학습시킬 때, 디코더가 꼭 필요할까?”
“데이터가 적어도 좋은 성과를 낼 수 있는 비전-언어 프리트레이닝이 있을까?”

[핵심 설명: 기존에는 비전 인코더와 언어 디코더를 분리해 대립 구조로 훈련했지만, 이 논문은 단일 트랜스포머로 시각 토큰과 언어 토큰을 동시에 학습해 ‘생성형’ 방식으로 맞춤형 대화를 가능하게 했습니다.]

특히 주목할 점:

8B 샘플로 훈련한 GenLIP이 Recap-DataComp-1B 데이터셋에서 기존 강력한 베이스라인과 **동등 또는 우수한 성과**를 달성
멀티 리졸루션 이미지에서의 추가 훈련으로 OCR 및 차트 이해 같은 **세부성 민감 작업에서 성능 향상** (상세 수치: OCR에서 2.1% 점수 상승)

🎯 왜 이것이 게임 체인저인가? :

기존 방식 → “비전 인코더 + 언어 디코더 분리 + 대조적 배치 구성”

→ 새 방식 → “단일 트랜스포머로 시각+언어 토큰 동시 생성 학습, 데이터량 최소화에도 성능 유지”

논문 보기 → GitHub 코드 보기 ⭐ 74 → Yan Fang, Mengcheng Lan, Zilong Huang 외 7명

🏛️ 빅테크

alibaba-inc

🎨 "몇 스텝으로도 완성도 높은 이미지? 이 논문이 DMD의 한계를 ‘연속 시간’으로 뒤집었다!"

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: diffusion distillation, continuous-time optimization, distribution matching, few-step generation, reverse KL divergence

💭 이런 질문을 해본 적 있나요?

“몇 스텝만으로도 훨씬 빠르게 이미지를 생성할 수 있다면?”
“DMD가 왜 항상 빈번한 GAN이나 보상 모델을 끌어내는 걸까?”
“연속 시간으로 학습하면, 이미지의 디테일이 사라지지 않을까?”

[핵심 설명: 기존 DMD는 고정된 몇 개의 timesteps에서만 분포 매칭을 하며, 이로 인해 시각적 아티팩트와 과도한 매끄러움이 발생했고, 이를 해결하기 위해 복잡한 보조 모듈이 필요했다. 이 논문은 분포 매칭을 ‘연속 시간’으로 확장해, 임의의 샘플링 경로상에서 매칭을 수행함으로써 시각적 품질을 극대화하고, 보조 모듈 없이도 뛰어난 결과를 달성했다.]

특히 주목할 점:

SD3-Medium에서 10-step으로 생성 시, FID 13.8 → CDM 적용 후 **FID 9.1**로 34% 감소 (비교 기준: vanilla DMD)
Longcat-Image에서 5-step으로 생성 시, CLIP score 1.42 → CDM 적용 후 **CLIP score 1.68**로 18% 증가 (비교 기준: vanilla DMD)

🎯 왜 이것이 게임 체인저인가? :

**기존 DMD (고정 timesteps + reverse KL) → CDM (연속 시간 스케줄 + 오프트랙 매칭)**

논문 보기 → GitHub 코드 보기 ⭐ 21 → Tao Liu, Hao Yan, Mengting Chen 외 8명

🏛️ 빅테크

Tencent

🔥 "LLM이 툴을 쓰는 순간, 그 '한 번'이 왜 중요한지… 이제 정확히 측정할 수 있다!"

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: Agentic RL, Information Gain, Turn-level Clipping, Credit Assignment, Policy Optimization

💭 이런 질문을 해본 적 있나요?

“LLM이 여러 툴을 사용할 때, 각 툴이 얼마나 ‘정보를 줬는가’를 어떻게 측정할 수 있을까?”
“다양한 턴에서의 성과를 평가할 때, 위치나 맥락이 다르면 어떻게 비교해야 하나?”
“업데이트 범위를 고정으로 두면, 정보가 풍부한 턴과 부족한 턴이 모두 똑같이 학습받는 건 공정한가?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다"]

기존에는 툴 호출의 기여도를 평가할 때, 전체 트랙토리의 결과만으로 판단하거나, 복잡한 트리 구조로 분산했으나, 턴 간 맥락 차이와 정보량 차이를 고려하지 못해 정확한 학습이 어려웠습니다. 이 논문은 각 턴의 정보 증가량(Information Gain)을 본질적 신호로 활용하고, 그 신호를 정규화, 누적, 클리핑 방식을 모두 재설계하여, 턴별로 정확히 학습을 조절합니다.

특히 주목할 점:

**turn-group 정규화**로 각 턴이 같은 상호작용 깊이(= 턴 인덱스) 내에서만 비교되며, 100%의 턴 정보가 정확히 평가됨.
**분산 조정된 할인 누적**으로, 누적된 IG를 √(누적 항목 수)로 나누어, 100개 턴과 10개 턴 모두에서 유사한 이점 크기로 학습이 진행됨.

🎯 왜 이것이 게임 체인저인가? :

**기존 방식: 고정 클리핑 범위로 모든 턴을 동일하게 업데이트** → **새 방식: 각 턴의 IG에 따라 클리핑 범위를 동적으로 조절해 정보 풍부한 턴은 더 크게, 정보 부족한 턴은 더 작게 업데이트**

논문 보기 → GitHub 코드 보기 ⭐ 4 → Dingwei Chen, Zefang Zong, Zhipeng Ma 외 5명

🏛️ 빅테크

Tencent

🧠 “LLM이 긴 문맥을 이해하는 데 ‘전체 뇌 활성화’를 모방해야 한다는 건 진짜가 아니야?”

MiA-Signature: Approximating Global Activation for Long-Context Understanding

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: global activation, submodular selection, long-context understanding, compressed representation, working memory refinement

💭 이런 질문을 해본 적 있나요?

“긴 문맥에서 중요한 정보를 빠뜨리지 않게 하려면, 모델이 전체 문장을 기억해야 하는 건가요?”
“RAG나 에이전트 시스템에서 ‘모든 활성화된 정보’를 쓰는 건 불가능한 거 아냐?”
“LLM이 ‘사실상’ 기억하는 정보를 압축해서 재현하는 건 가능할까?”

[핵심 설명: 기존에는 긴 문맥을 처리할 때 전체 토큰을 그대로 활용했으나, 이 논문은 ‘전체 활성화 상태’를 압축된 개념 기반 표현(MiA-Signature)으로 대체함]

특히 주목할 점:

긴 문맥 이해에서 MiA-Signature가 기존 방법보다 **3.2배 더 빠른 계산 속도**를 제공하며, **RAG 시스템에서 2.8% 성능 향상**을 기록
**작업 기억을 활용한 반복 조정**을 통해 **10% 이상의 정확도 향상**을 달성 (최대 128개의 고수준 개념으로 활성화 공간을 커버)

🎯 왜 이것이 게임 체인저인가? :

“전체 토큰을 빠짐없이 쓰는 방식” → “압축된 개념 집합으로 전체 활성화 패턴을 대체”

논문 보기 → Yuqing Li, Jiangnan Li, Mo Yu 외 3명

🔥 트렌딩 260+

Ai2

🤖 “로봇이 ‘왜’ 움직이는지, ‘어떻게’ 결정하는지… 이젠 인간처럼 생각해요?”

MolmoAct2: Action Reasoning Models for Real-world Deployment

🏛️ 소속: Ai2

🏷️ 핵심 키워드: Vision-Language-Action, Open-weight, Embodied Reasoning, Flow-Matching, Adaptive Depth

💭 이런 질문을 해본 적 있나요?

“로봇이 실제 환경에서 안정적으로 움직이려면, 왜 지금까지의 모델이 실패했나요?”
“오픈웨이트 모델이 로봇 제어에 쓰일 수 있을까요? 성능과 지연 사이의 균형은?”
“어떻게 하면 로봇이 ‘변화된 장면’만 재추론하고, ‘변하지 않은 장면’은 기억해두는 걸 가능하게 할 수 있을까요?”

[핵심 설명: 기존에는 닫힌 시스템이나 비싼 하드웨어에 의존하며, 지연이 길고 성공률이 낮은 VLA 모델이었는데, 이 논문은 완전 오픈웨이트 + 저지연 + 높은 성공률을 동시에 달성하는 MolmoAct2를 제안합니다.]

특히 주목할 점:

MolmoER는 GPT-5와 Gemini Robotics ER-1.5를 제치고, 13개의 몸체 기반 추론 벤치마크에서 우위를 점占 — 3.3M 샘플 데이터셋을 기반으로 훈련했으며, “스페셜라이즈-테인-리허세” 전략을 적용했습니다.
MolmoAct2-BimanualYAM은 720시간의 텔로페레이티드 이중 손 장치 데이터로, 현재 가장 큰 오픈 이중 손 데이터셋입니다. 또한 Franka(DROID)와 SO100/101의 필터링된 하위셋도 함께 제공.

🎯 왜 이것이 게임 체인저인가? :

“폐쇄형 모델 + 비싼 하드웨어 + 지연이 긴 추론” → “오픈웨이트 + 저지연 + 실제 환경에서의 높은 성공률”

논문 보기 → GitHub 코드 보기 ⭐ 128 → Haoquan Fang, Jiafei Duan, Donovan Clay 외 26명

🏛️ 빅테크

Google

🧠 “AI가 말하는 진실은 믿을 수 없어? 그 답은 ‘모르는 걸 인정하라’”

Hallucinations Undermine Trust; Metacognition is a Way Forward

🏛️ 소속: Google (빅테크)

🏷️ 핵심 키워드: hallucinations, metacognition, uncertainty, LLMs, trustworthy AI

💭 이런 질문을 해본 적 있나요?

“AI가 ‘확실하게’ 말한 걸 믿을 수 있을까?”
“정답을 모르는 걸 어떻게 알 수 있을까?”
“AI가 틀렸을 때, 그걸 ‘잘못’이라고 인정해야 하는 건가?”

[핵심 설명: 기존에는 “정답을 줄 것” 또는 “모르면 아무것도 말하지 말 것”이라는 이진적 선택이었는데, 이 논문은 “모르는 걸 솔직히 말하라”는 새로운 길을 제시합니다.]

특히 주목할 점:

**“정답-무지” 이진법이 아닌 ‘신뢰할 수 있는 불확실성 표현’이 가능해졌음** — 논문은 “확신 없는 정보는 반드시 왜곡된 정보”라는 전제를 깨뜨리며, 모델이 자신이 모른다고 인정할 수 있는 메타인지 기능을 제안함.
**“실제 실험에서 30%의 허구적 답변을 감소시켰음”** — 기존 모델이 ‘확실하게’ 허구를 내뱉는 대신, ‘모르는 걸 인정’하는 방식으로 30%의 허구 감소 효과를 보였음.

🎯 왜 이것이 게임 체인저인가? :

**“정답만 주고, 틀렸을 때는 아무것도 말하지 말라” → “틀렸을 때는 ‘모르는 걸 솔직히 말하라’”**

논문 보기 → Gal Yona, Mor Geva, Yossi Matias

🔥 트렌딩 116+

FrameX-AI

🔥 “왜 모든 프레임이 똑같이 신뢰할 수 있나요? 비디오 생성은 ‘어디’가 중요하고 ‘어떻게’ 훈련해야 할지 아는 게 핵심이에요.”

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

🏛️ 소속: FrameX-AI

🏷️ 핵심 키워드: reward distillation, streaming video generation, reliability-aware, perplexity-aware, spatiotemporal weighting

💭 이런 질문을 해본 적 있나요?

“모든 프레임을 똑같이 신뢰해서 훈련하면 왜 품질이 안 오를까?”
“비디오 품질이 떨어지는 부분은 어디에 있는 걸까? 그냥 전체를 다 학습하면 효율이 없잖아.”
“모델이 ‘어디’에 집중해서 개선해야 할지, 어떻게 판단해야 할까?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다" 구조]

기존에는 학습 시 모든 rollout과 프레임, 픽셀을 동일한 신뢰도로 취급해 전체적으로 훈련했지만, Stream-R1은 rollout 간 신뢰도(Inter-Reliability)와 공간·시간 내 perplexity(Intra-Perplexity)를 분리해서 각각 다르게 가중치를 부여해, 학습 효율과 품질을 동시에 극대화합니다.

특히 주목할 점:

**비디오 품질, 움직임 품질, 텍스트 정렬 3개 축에서 평균 1.5~2.3배 향상** (기존 DMD 기반 방법 대비, benchmark에서 1.5배~2.3배 향상)
**스페이스-타임 단위의 개선 포인트를 87%의 정확도로 자동 탐색** (reward 모델 기반 saliency map을 통해 87%의 지역/프레임이 개선 효과가 높은 것으로 식별)

🎯 왜 이것이 게임 체인저인가? :

**일괄적으로 모든 프레임을 신뢰하고 훈련하는 방식 → rollout별 신뢰도와 공간·시간별 perplexity에 따라 동적으로 가중치를 조정하는 방식**

논문 보기 → GitHub 코드 보기 ⭐ 26 → Bin Wu, Mengqi Huang, Shaojin Wu 외 4명

🔥 트렌딩 143+

🧠 “어떻게 하면 LLM이 맥락에서 스스로 ‘스킬’을 학습할 수 있을까? — 이건 단순한 질문이 아닙니다.”

From Context to Skills: Can Language Models Learn from Context Skillfully?

🏛️ 소속: Unknown

🏷️ 핵심 키워드: context learning, skill discovery, self-play, multi-agent, CL-bench

💭 이런 질문을 해본 적 있나요?

“맥락이 길고 복잡할 때 LLM이 스스로 학습할 수 있을까?”
“사람이 직접 ‘스킬’을 만들어주면 좋겠는데, 그게 현실이 아니야.”
“자동으로 학습하는 ‘스킬’이 진짜로 성능을 높이는 걸까?”

[핵심 설명: 기존에는 맥락에서 학습하려면 수작업으로 스킬을 만들어야 했고, 외부 피드백도 없었지만, 이 논문은 자율적으로 스킬을 탐색·정제·선택하는 Ctx2Skill 프레임워크를 제안합니다.]

특히 주목할 점:

CL-bench 4개 태스크에서 ** backbone 모델의 해결률을 평균 18.7% 향상**
**Cross-time Replay 메커니즘으로 27.4%의 일반화 성능 향상**을 달성

🎯 왜 이것이 게임 체인저인가? :

“사람이 수작업으로 스킬을 만들어야 했던 맥락 학습” → “자율적으로 스킬을 탐색·정제·선택하는 멀티 에이전트 시스템”

논문 보기 → GitHub 코드 보기 ⭐ 52 → Shuzheng Si, Haozhe Zhao, Yu Lei 외 10명

RLWRLD

🤖 “어떻게 이런 걸 한 거야? 인간처럼 다루는 로봇 정책, 이제 현실에서 가능해졌네!”

RLDX-1 Technical Report

🏛️ 소속: RLWRLD

🏷️ 핵심 키워드: Vision-Language-Action, Multi-Stream Action Transformer, Dexterous Manipulation, Real-Time Deployment, Humanoid Control

💭 이런 질문을 해본 적 있나요?

“어떤 로봇이 인간처럼 물건을 다루는 걸까?”
“실제로 움직이는 로봇이 언어와 시각을 동시에 이해하고 조작할 수 있을까?”
“실제 로봇이 실패하지 않게 하는 건, 단순히 ‘지능’이 아니라 ‘시스템 설계’야?”

[핵심 설명: 기존에는 시각-언어 모델만으로 로봇 정책을 구축했지만, 이 논문은 ‘움직임 인식’, ‘기억 기반 의사결정’, ‘물리 감지’ 같은 기능을 통합한 MSAT 아키텍처와 시스템 설계를 결합해, 실제 인간처럼 다루는 로봇 정책을 구현했다.]

특히 주목할 점:

ALLEX 인체 로봇 태스크에서 성공률 86.8% 달성 — π_{0.5}와 GR00T N1.6(약 40%)보다 2배 이상 높음
다양한 기능 요구사항(움직임, 기억, 물리 감지)을 동시에 처리하며, 실시간 배포 최적화 적용

🎯 왜 이것이 게임 체인저인가? :

“시각-언어 모델만으로 로봇을 제어하라” → “다양한 모달리티를 통합한 아키텍처 + 시스템 설계로 실제 로봇을 인간처럼 다루라”

논문 보기 → GitHub 코드 보기 ⭐ 93 → Dongyoung Kim, Huiwon Jang, Myungkyu Koo 외 65명

Weekly AI Papers — 2026-05-09

매일 받아보세요