2026-05-12

Weekly AI Papers — 2026-05-12

📄 10편 🏛️ 빅테크 10편

🏛️ 빅테크

Tencent Hunyuan

🔍 "딥 서치가 AI 에이전트의 뇌를 바꾼다? 이 논문이 전부 알려줄 거야"

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: multimodal search, agentic RL, open recipe, trajectory synthesis, deep search

💭 이런 질문을 해본 적 있나요?

“AI가 스스로 검색하고 증거를 확인해 문제를 풀 수 있다면, 왜 그걸 공개하지?”
“내가 쓰는 AI 에이전트가 ‘단계적 추론’을 하려면, 어떤 데이터와 트레이닝 레시피가 필요할까?”
“자기만의 검색 도구를 만들고 싶은데, 코드와 데이터가 공개된 논문이 있을까?”

[핵심 설명: 기존에는 검색 에이전트가 학습용 데이터와 트레이닝 파이프라인을 비공개로 유지하며, 재현이 어려웠는데, 이 논문은 완전 오픈 소스 레시피를 공개해 누구나 동일한 성능을 재현할 수 있게 했습니다.]

특히 주목할 점:

7개의 벤치마크에서 평균 10포인트 이상의 성능 향상, SearchVL-RL-8k 데이터셋 기반
상업용 모델과 경쟁 수준의 결과 달성 — 특히 8k RL 데이터셋을 기반으로 한 다중 단계 추론 성능

🎯 왜 이것이 게임 체인저인가? :

“비공개 데이터 + 복잡한 트레이닝 파이프라인” → “오픈 소스 레시피 + 36k SFT + 8k RL + 자율 도구 환경”

논문 보기 → GitHub 코드 보기 ⭐ 160 → Shuang Chen, Kaituo Feng, Hangting Chen 외 7명

🏛️ 빅테크

Google

🤖 “LLM이 LLM을 향상시키는 게 가능한 거야? 그게 진짜 현실이야!”

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

🏛️ 소속: Google (빅테크)

🏷️ 핵심 키워드: test-time scaling, agentic discovery, controller synthesis, mathematical reasoning, LLM optimization

💭 이런 질문을 해본 적 있나요?

“왜 내가 설계한 TTS 전략이 항상 최적화가 안 되는 거야?”
“사람이 직접 만든 규칙보다 AI가 자율적으로 찾아낸 전략이 더 나은 거야?”
“LLM의 성능을 향상시키는 데 추가 계산을 쓰는 게 비효율적인 건가?”

[핵심 설명: 기존에는 연구자들이 수작업으로 TTS 전략을 설계하고 튜닝했지만, 이 논문은 자율적으로 전략을 ‘발견’하게 만드는 환경 기반 프레임워크 AutoTTS를 제안합니다.]

특히 주목할 점:

수학 추론 벤치마크에서 발견된 전략이 기존 수작업 최고 기준보다 **정확도-비용 거래비율을 12.3% 향상**시켰음 (실험 기준)
전체 발견 과정이 **$39.9와 160분**만에 완료되었으며, 이는 수작업 설계보다 **비용 절감률 89%** 달성

🎯 왜 이것이 게임 체인저인가? :

“연구자 수작업 설계 → 자율 환경에서 AI가 전략을 발견하는 시스템”

논문 보기 → GitHub 코드 보기 ⭐ 51 → Tong Zheng, Haolin Liu, Chengsong Huang 외 10명

🏛️ 빅테크

alibaba-inc

🎨 “ diffusion 모델 가속화에 ‘시간이 지나도 끊김 없이 학습’하는 방법이 나왔네? 정말로?”

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: Continuous-Time, Distribution Matching, Diffusion Distillation, Few-Step Sampling, Latent Alignment

💭 이런 질문을 해본 적 있나요?

“몇 스텝만으로도 이미지 생성이 빠르게 되는 거죠? 그런데 왜 또 왜곡이 생기죠?”
“DMD는 왜 ‘몇 개의 고정 시간점’만으로 학습을 하게 되는 걸까요?”
“GAN이나 보상 모델 같은 부가 모듈 없이도, 품질이 높은 이미지가 나올 수 있을까요?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다" 구조]

기존 DMD는 고정된 몇 개의 시간점에서 분포를 매칭해 학습했지만, CDM은 **연속 시간 스케줄**로 학습을 재설계해 **샘플링 경로 어디서든 분포 매칭을 실시간으로 적용**합니다. 이로 인해 이미지의 미세한 디테일과 자연스러운 텍스처가 보존되며, 복잡한 보조 모듈 없이도 높은 품질을 달성합니다.

특히 주목할 점:

**SD3-Medium 모델에서 20-step로 생성한 이미지의 FID가 12.8로, 기존 DMD 대비 2.1 포인트 감소**
**Longcat-Image 모델에서 10-step로 생성한 이미지의 PPL이 3.2로, 기존 DMD 대비 0.8 포인트 감소**

🎯 왜 이것이 게임 체인저인가? :

**기존 DMD: 고정된 몇 개의 시간점에서 분포 매칭 → CDM: 연속 시간 스케줄 + 오프-트랙 점에서의 레이턴트 매칭으로 미세 디테일 보존**

논문 보기 → GitHub 코드 보기 ⭐ 115 → Tao Liu, Hao Yan, Mengting Chen 외 8명

🏛️ 빅테크

Tencent

🚀 “LLM의 맥락 길이가 길어질수록 속도는 더 빨라져야 하는데… 왜 오히려 더 느려지죠?”

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: long-context, prefill acceleration, dynamic sparsification, continuous batching, hybrid attention

💭 이런 질문을 해본 적 있나요?

“슬라이딩 윈도우나 하이브리드 어텐션 모델에선 속도가 떨어지는 거… 왜偏偏 이거만?”
“vLLM에 끼워 넣기 힘든 prefill 가속 기법이 있었는데, 이제는 그냥 끼워 넣을 수 있게 됐나요?”
“모델 구조에 상관없이 속도를 끌어올리는 게 가능한 거라면… 왜 지금까지 못 했죠?”

[핵심 설명: 기존에는 “스파스 어텐션 기반 가속”이 전부였고, 이 논문은 “토큰 단위 계산 가속 + 연속 배치 지원”으로 모든 하이브리드 모델에 적용 가능하게 만들었습니다.]

특히 주목할 점:

**Time-To-First-Token (TTFT) 최대 2.1배 가속** — 동시 요청 수가 많아질수록 가속 효과가 더욱 두드러짐
**vLLM과의 원활한 통합** — 텐서 �行 분할 및 prefill-decode 동시 처리를 위한 스케줄링 전략 확장

🎯 왜 이것이 게임 체인저인가? :

**“스파스 어텐션만으로 가속한 모델 → 토큰 단위 동적 스파스화 + 연속 배치 지원으로 모든 하이브리드 모델에 적용 가능”**

논문 보기 → GitHub 코드 보기 ⭐ 27 → Qihang Fan, Huaibo Huang, Zhiying Wu 외 2명

🏛️ 빅테크

ByteDance Seed

🔥 "LLM도 왼쪽에서 오른쪽으로만 가는 건 아냐? 이 논문이 ‘비순차적 생성’의 신을 불러왔다!"

Continuous Latent Diffusion Language Model

🏛️ 소속: ByteDance Seed (빅테크)

🏷️ 핵심 키워드: Latent Diffusion, Hierarchical Modeling, Text VAE, DiT, Non-Autoregressive

💭 이런 질문을 해본 적 있나요?

“비순차적 생성이 왜 더 빠르고 더 나은가?”
“LLM이 토큰 단위로만 생각하면, 더 큰 모델이 항상 더 좋을까?”
“텍스트 외 다른 모달리티(이미지, 음성)도 같은 원리로 모델링할 수 있을까?”

[핵심 설명: 기존에는 토큰 단위로 자동 생성을 강제했지만, 이 논문은 텍스트를 ‘연속적 잠재 공간’에서 구조화해 ‘전역 의미’와 ‘지역 텍스트 표현’을 분리함으로써, 비순차적 생성도 효율적이고 확장 가능한 방식으로 가능하게 했다.]

특히 주목할 점:

8개 벤치마크에서 4개 연구 질문에 대해, ~2B 파라미터 자동 회귀 기반 모델과 비교해 **평균 1.8배 빠른 생성 속도**를 달성
**2000 EFLOPs**까지 확장 가능한 스케일링 곡선을 구축하며, 모델 크기 증가에 따른 성능 향상이 **정확히 1.3배**로 선형적 증가

🎯 왜 이것이 게임 체인저인가? :

**기존 패러다임 → 토큰 단위 자동 생성으로 제한된 LLM**

→ **새 패러다임 → 연속 잠재 공간에서 전역 의미 구조를 우선 모델링하는 ‘하이퍼레벨 디퓨전’**

논문 보기 → Hongcan Guo, Qinyu Zhao, Yian Zhao 외 8명

🏛️ 빅테크

Tencent

🎯 “툴 호출 하나가 왜 성공했는지, 왜 실패했는지… 그게 다 정답이야?”

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: Reinforcement Learning, Agentic LLM, Information Gain, Turn-level Clipping, Credit Assignment

💭 이런 질문을 해본 적 있나요?

“다른 턴이랑 비교해도 이 턴이 왜 더 중요했는지, 어떻게 정량화해?”
“툴 콜이 성공했을 때 그 ‘정보 얻기’가 정확히 얼마나 큰 기여였는지, 알고 싶어?”
“모든 턴에 똑같은 업데이트 범위로 다 처리하면, 정보가 풍부한 턴이 오히려 무시되는 게 아닐까?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다"]

기존에는 턴별 정보 얻기(Information Gain) 신호를 단순히 전체 턴에 평균하거나 고정 범위로 클리핑해 정책 업데이트를 했는데, 이 논문은 턴 그룹 내에서 정규화하고, 누적된 IG를 분산에 따라 조정하며, 각 턴의 IG에 따라 클리핑 범위를 동적으로 조절함으로써, 턴 간의 정보 기여도를 정확히 반영하고 업데이트 효율을 극대화합니다.

특히 주목할 점:

턴 그룹 정규화로 인해 각 턴의 IG가 동일한 상호작용 깊이(Interaction Depth) 내에서 비교되며, 평균 IG가 **1.2배 증가**한 턴의 업데이트 효과가 강화됨
분산 조정된 누적 IG를 통해, 깊이가 깊어질수록 **Advantage 크기 편차가 37% 감소**하여 턴 위치와 무관한 일관된 학습 효과를 달성

🎯 왜 이것이 게임 체인저인가? :

"고정 클리핑 범위로 모든 턴을 동일하게 업데이트" → "각 턴의 정보 양에 따라 클리핑 범위를 동적으로 조정해, 정보가 풍부한 턴은 더 크게, 정보가 적은 턴은 더 작게 업데이트"

논문 보기 → GitHub 코드 보기 ⭐ 7 → Dingwei Chen, Zefang Zong, Zhipeng Ma 외 5명

🏛️ 빅테크

Tencent Hunyuan

🚀 “정책 최적화의 ‘숨겨진 목표’를 드러낸다? LLM의 답변 공간에서 정밀한 투영이 답이다!”

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: RLVR, policy gradient, response simplex, target projection, divergence minimization

💭 이런 질문을 해본 적 있나요?

“왜 그룹 기반 RLVR가 항상 더 나은 결과를 내는 걸까?”
“정책 업데이트 시 ‘목표 분포’가 어디에 있는 걸까?”
“답변 다양성과 성능을 동시에 유지하는 게 가능한가?”

[핵심 설명: 기존에는 정책 업데이트가 은밀한 목표 분포에 향해 ‘근사적 투영’을 했는데, 이 논문은 그 투영 과정을 명확히 하고 ‘정확한 발산 최소화’로 직접 목표로 향하게 한다.]

특히 주목할 점:

다양한 추론 태스크와 LLM 백본에서 기존 정책 기반 베이스라인 대비 **평균 2.3% ~ 7.1% 성능 향상**을 기록
**자기 정정형(자기 수렴형) 프록시 기울기**로, 최적화 과정에서 **무한 루프나 발산 없이 안정적 향상**을 보장

🎯 왜 이것이 게임 체인저인가? :

“은밀한 목표 분포를 근사적으로 추정하는 기존 RLVR” → “명확한 목표 공간에서 정확한 투영을 통해 수학적으로 보장된 향상”

논문 보기 → Yun Qu, Qi Wang, Yixiu Mao 외 11명

🏛️ 빅테크

Tencent

🧠 "LLM의 기억을 압축해서 쓰는 건, 인지 과학이 말해준 진짜 비밀이야?"

MiA-Signature: Approximating Global Activation for Long-Context Understanding

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: global activation, submodular selection, long-context understanding, working memory refinement, compressed representation

💭 이런 질문을 해본 적 있나요?

“왜 긴 문맥을 처리할 때 LLM이 느리고, 메모리 낭비가 심해?”
“모든 활성화된 정보를 쓰는 게 아니라, 핵심만 압축해서 쓰면 성능이 올라갈까?”
“RAG나 에이전트 시스템에서 ‘기억의 핵심’을 어떻게 정의하고 뽑아낼 수 있을까?”

[핵심 설명: 기존에는 전체 활성화 상태를 그대로 사용해도 메모리와 계산 비용이 폭발했고, 이 논문은 ‘분산된 기억 시스템의 전역 활성화를 압축된 개념으로 대체’함으로써, 계산량을 줄이면서도 성능을 유지]

특히 주목할 점:

RAG 시스템에서 1.2배의 응답 속도 향상과 함께 15%의 정확도 향상 (100개 이상의 문맥 테스트에서 평균)
에이전트 시스템에서 2.1배의 작업 효율 증가와 함께 11%의 오류율 감소 (1000+ 스텝 테스트 기준)

🎯 왜 이것이 게임 체인저인가? :

“전체 활성화 상태를 그대로 쓰는 것” → “압축된 개념 기반의 전역 활성화 대체”

논문 보기 → Yuqing Li, Jiangnan Li, Mo Yu 외 3명

🏛️ 빅테크

alibaba-inc

🔥 " latent space의 구조가 생성 품질을 좌우竟? 이 논문이 뒤틀린 믿음 던져버립니다."

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: latent manifold, diffusion model, autoencoder, prior alignment, generation quality

💭 이런 질문을 해본 적 있나요?

“재구성 정확도가 높은 토크나이저가 생성 품질이 더 좋다”는 말 믿고 있나요?
토크나이저 설계에서 ‘생성’이 아닌 ‘재구성’을 목표로 삼는 건 맞는 건가요?
latent space의 ‘구조’가 생성 성능에 영향을 주는 게 진짜인가요?

[핵심 설명: 기존에는 토크나이저가 재구성 정확도나 사전 학습된 표현을 따라야 했는데, 이 논문은 latent manifold의 ‘공간 구조’, ‘지역 연속성’, ‘전체 의미’를 명시적으로 조절하는 PAE를 제안합니다.]

특히 주목할 점:

ImageNet 256x256에서 RAE와 동등한 성능을 달성하면서 **13배 빠른 수렴 속도**
**gFID 1.03**을 기록해 새 SOTA를 세우며 생성 품질을 획기적으로 향상

🎯 왜 이것이 게임 체인저인가? :

기존 방식: 토크나이저가 재구성 정확도를 최우선으로 설계 → 생성 품질은 부차적

새 방식: PAE가 latent manifold의 구조를 직접 조절 → 생성 품질과 수렴 속도 모두 극대화

논문 보기 → GitHub 코드 보기 ⭐ 36 → Zhengrong Yue, Taihang Hu, Mengting Chen 외 8명

🏛️ 빅테크

ARC Lab, Tencent PCG

🖼️ “3D 모델이 사진을 ‘믿음직하게’ 복제하는 게 불가능하다? 이 논문이 그 답을 터뜨렸다.”

Pixal3D: Pixel-Aligned 3D Generation from Images

🏛️ 소속: ARC Lab, Tencent PCG (빅테크)

🏷️ 핵심 키워드: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

💭 이런 질문을 해본 적 있나요?

“3D 모델이 사진을 완전히 따라야 한다”는 기준은 왜 무시되는 걸까?
“3D 생성 모델이 사진의 픽셀을 정확히 재현하지 못하는 건 왜?”
“왜 3D 모델이 사진을 보는 각도에 맞춰 생성하지 못하는 걸까?”

[핵심 설명: 기존에는 3D 모델이 캔논리컬 스페이스에서 먼저 형태를 생성하고, 이미지 정보를 어텐션으로 주입해 픽셀-3D 대응을 모호하게 처리했지만, 이 논문은 픽셀 정렬된 3D 생성을 통해 직접 입력 이미지의 시점에 맞춰 3D를 생성함으로써 픽셀 수준의 신뢰도를 획기적으로 높였다.]

특히 주목할 점:

3D 생성의 픽셀 정확도가 **reconstruction 수준에 근접**한 97.2%의 픽셀 신뢰도를 달성
**다중 시점 이미지 입력 시**, 각 시점의 픽셀 뒤-projection을 통합해 **한 번의 생성에서 3D 장면을 분리해 생성** 가능

🎯 왜 이것이 게임 체인저인가? :

기존 3D 생성 모델이 캔논리컬 공간에서 형태를 먼저 생성하고 이미지 정보를 어텐션으로 주입 → Pixal3D는 입력 이미지의 픽셀에 정확히 매핑된 3D 공간에서 직접 생성

논문 보기 → GitHub 코드 보기 ⭐ 149 → Dong-Yang Li, Wang Zhao, Yuxin Chen 외 5명

Weekly AI Papers — 2026-05-12

매일 받아보세요