2026-05-13

Weekly AI Papers — 2026-05-13

📄 10편 🏛️ 빅테크 10편

🏛️ 빅테크

Tencent Hunyuan

🔍 "딥 서치가 AI 에이전트의 핵심이라면, 이 논문은 그 기술을 누구나 복제할 수 있게 해준다!"

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: multimodal search, agentic RL, open-source recipe, deep search, trajectory synthesis

💭 이런 질문을 해본 적 있나요?

“AI가 스스로 검색해서 답을 찾아내는 게 진짜 가능할까?”
“내가 쓰는 AI 에이전트가 왜 항상 ‘짧은 답변’만 내놓는 걸까?”
“검색 기술이 개선됐는데, 왜 실제 사용자에게는 큰 변화가 없을까?”

[핵심 설명: 기존에는 검색 데이터와 트레이젝토리 합성 프로세스가 비공개여서 재현 불가능했으나, 이 논문은 완전 오픈 소스 레시피로 모든 과정을 공개함]

특히 주목할 점:

7개 벤치마크에서 평균 10포인트 이상 성능 향상 (SearchVL-SFT-36k, SearchVL-RL-8k 기반)
특정 과제에서 상용 프리미엄 모델과 동등한 성과 달성 (RL 학습 데이터 8k건 기준)

🎯 왜 이것이 게임 체인저인가? :

“비공개 데이터 + 복잡한 트레이젝토리 합성” → “오픈 소스 레시피 + 36k/8k 데이터셋 + 툴 환경 통합”

논문 보기 → GitHub 코드 보기 ⭐ 165 → Shuang Chen, Kaituo Feng, Hangting Chen 외 7명

🏛️ 빅테크

Google

🤖 “LLM이 스스로 LLM을 향상시킨다? 테스트 시점 확장이 자율적으로 진화한다!”

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

🏛️ 소속: Google (빅테크)

🏷️ 핵심 키워드: test-time scaling, agentic discovery, controller synthesis, LLM optimization, reasoning trajectories

💭 이런 질문을 해본 적 있나요?

“내 모델이 더 똑똑해지려면, 계산을 어떻게 더 똑똑하게 쓰면 되지?”
“왜 매번 수작업으로 TTS 전략을 설계해야 하는가? AI가 자동으로 찾아줄 수는 없나?”
“이런 전략은 다른 모델 크기나 데이터셋에도 적용될까?”

[핵심 설명: 기존에는 연구자들이 수작업으로 TTS 전략을 설계하고 튜닝했지만, 이 논문은 자율 에이전트를 통해 전략을 ‘발견’하게 함]

특히 주목할 점:

테스트 시점 확장 전략을 자동으로 발견한 결과, 기존 수작업 기준보다 **정확도-비용 거래 성능이 2.1배 향상** (accuracy-cost tradeoff)
전체 탐색 비용은 **$39.9와 160분**으로, 매우 저비용에 대규모 모델 및 벤치마크에 일반화 가능

🎯 왜 이것이 게임 체인저인가? :

수작업 설계 → 자율 에이전트 기반 전략 탐색

논문 보기 → GitHub 코드 보기 ⭐ 59 → Tong Zheng, Haolin Liu, Chengsong Huang 외 10명

🏛️ 빅테크

alibaba-inc

🎨 “ diffusion 모델을 빠르게 만들려면… 디스커트 타임만으로는 안 돼요? ”

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: diffusion distillation, continuous-time matching, few-step generation, reverse KL, trajectory alignment

💭 이런 질문을 해본 적 있나요?

“단 몇 스텝으로 이미지를 생성하려면, 어떻게 해야 핵심 디테일을 잃지 않을까?”
“DMD가 왜 빠르게 학습되지만, 결과가 왜 왜곡되나요?”
“GAN이나 보상 모델 없이도, 왜 ‘연속 시간’으로만 해야 핵심 디테일을 살릴 수 있을까?”

[핵심 설명: “기존에는 X였는데, 이 논문은 Y로 뒤집었습니다” 구조]

기존 DMD는 고정된 몇 개의 타임스텝에서만 분포 매칭을 수행해, 시각적 아티팩트와 과도한 스무딩이 발생했고, 이를 해결하려면 GAN이나 보상 모델 같은 복잡한 보조 모듈이 필요했지만, 이 논문은 **연속 시간**으로 분포 매칭을 구현해, **모든 샘플링 경로의 임의 점에서** 매칭을 수행하고, **학생 모델의 속도장으로 외삽된 레이턴트에 대해 활성화된 오프트랙 매칭**을 도입해, 디테일 보존과 일반화를 동시에 달성했습니다.

특히 주목할 점:

**SD3-Medium**에서 **4-step**으로 생성한 이미지의 **FID 13.8** (기존 DMD 기준 17.2) → **FID 13.8**로 **19.7% 감소**
**Longcat-Image**에서 **2-step**으로 생성한 이미지의 **IS 6.3** (기존 DMD 기준 5.8) → **IS 6.3**로 **8.6% 증가**

🎯 왜 이것이 게임 체인저인가? :

**고정된 몇 개의 타임스텝에서의 분포 매칭** → **샘플링 경로의 임의 점에서의 연속 시간 분포 매칭**

논문 보기 → GitHub 코드 보기 ⭐ 115 → Tao Liu, Hao Yan, Mengting Chen 외 8명

🏛️ 빅테크

Tencent

🚀 “LLM의 맥락 길이가 길어질수록, 속도는 더 빨라져야 하는데… 왜 오히려 느려지는 걸까?”

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: long-context, prefill acceleration, dynamic sparsification, continuous batching, hybrid architectures

💭 이런 질문을 해본 적 있나요?

“슬라이딩 윈도우나 하이브리드 모델에서 prefill 가속화가 안 되는 건 왜?”
“vLLM에 끼워 넣기 힘든 가속 기법… 그게 뭐였더라?”
“모든 모델에 적용 가능한 prefill 가속 기술이 있을까?”

[핵심 설명: 기존에는 스파스 어텐션 기반 가속화만 있었는데, 이 논문은 블록 단위 동적 스파스화로 모든 하이브리드 구조에 적용 가능하게 만들었습니다.]

특히 주목할 점:

**Time-To-First-Token (TTFT) 가속: 최대 2.1배** — 동시 요청 수가 많아질수록 가속 효과가 더욱 두드러짐
**vLLM과의 원활한 통합 성공**: 텐서 �行성 및 prefill-decode 동시 처리를 지원해 배치 처리 시스템에 자연스럽게 적용 가능

🎯 왜 이것이 게임 체인저인가? :

**기존 스파스 어텐션 기반 가속 → 블록 단위 동적 스파스화 + 연속 배치 지원**

→ 하이브리드 모델도, vLLM도, 빅테크도 무관하게 적용 가능해진 ‘ universally applicable prefill acceleration’

논문 보기 → GitHub 코드 보기 ⭐ 29 → Qihang Fan, Huaibo Huang, Zhiying Wu 외 2명

🏛️ 빅테크

ByteDance Seed

🚀 "LLM도 자동으로 왼쪽에서 오른쪽으로만 말할 필요 없어? 이 논문이 새로운 흐름을 열었다!"

Continuous Latent Diffusion Language Model

🏛️ 소속: ByteDance Seed (빅테크)

🏷️ 핵심 키워드: Latent Diffusion, Hierarchical Modeling, Text VAE, DiT, Non-Autoregressive

💭 이런 질문을 해본 적 있나요?

“비교적 작은 모델이 더 빠르게 텍스트 생성을 하면, 왜 대규모 모델이 더 나은 결과를 내는 걸까?”
“어떤 모델이 ‘의미’를 먼저 학습하고, ‘단어’를 뒤로 던지는 게 더 효율적인가?”
“LLM이 토큰 단위로만 학습해야 하는 이유가 있을까?”

[핵심 설명: 기존에는 토큰 단위 자동회귀 방식으로 텍스트를 생성했지만, 이 논문은 히에라키컬한 잠재 공간에서 의미를 먼저 모델링하고, 그 위에 조건부 디코딩을 적용함으로써 ‘글의 구조’와 ‘단어의 흐름’을 분리해 더 유연하고 확장 가능한 생성을 가능하게 했습니다.]

특히 주목할 점:

8개의 벤치마크에서, 약 2B 파라미터의 자동회귀 기반 모델과 엄격히 일치한 설정에서 Cola DLM이 2000 EFLOPs까지 확장 가능하며, 이는 훨씬 더 빠른 스케일링 성능을 보여줍니다.
4개의 연구 질문을 통한 실험에서, Cola DLM은 토큰 단위의 확률 계산 대신 잠재 공간에서의 의미 전송을 통해 텍스트 생성 품질을 향상시켰으며, 이는 텍스트 외에도 연속적 모달리티로 확장 가능함을 보여줍니다.

🎯 왜 이것이 게임 체인저인가? :

토큰 단위 자동회귀 → 잠재 공간에서의 의미 전송 기반 비자동회귀

논문 보기 → Hongcan Guo, Qinyu Zhao, Yian Zhao 외 8명

🏛️ 빅테크

Tencent

🔥 "LLM이 툴을 쓰는 순간마다 ‘이게 왜 성공했는가?’를 정확히 측정할 수 있다면…? 지금은 불가능하다. 이 논문은 그 불가능을 3가지 문제로 풀었다."

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: Information Gain, Turn-level Clipping, Policy Optimization, Credit Assignment, RL for Agents

💭 이런 질문을 해본 적 있나요?

“툴을 쓴 후 결과가 나쁜데, 그 툴이 왜 문제였는가?”
“다중 턴 대화에서 특정 턴이 성공에 기여했는지, 어떻게 정확히 측정할 수 있을까?”
“모든 턴에 똑같은 업데이트 범위를 적용하면, 정보가 풍부한 턴이 더 잘 학습하지 못하는 건 아닐까?”

[핵심 설명: "기존에는 X였는데, 이 논문은 Y로 뒤집었습니다"]

기존에는 툴 호출의 기여도를 trajectory-level reward로만 측정했고, IG 신호를 사용하더라도 턴 간 정규화, 누적, 클리핑이 고정되어 있어 정보 풍부한 턴이 과소평가되거나, 깊은 턴에서 이득이 누적되어 과도하게 증폭됐다. 이 논문은 IG를 기반으로 하되, 턴 그룹 내 정규화, 분산 조정된 할인 누적, 그리고 각 턴의 IG에 따라 동적으로 클리핑 범위를 조정함으로써, 턴별 기여도를 정확히 측정하고 학습 효율을 극대화했다.

특히 주목할 점:

턴 그룹 정규화를 적용해 각 턴이 같은 상호작용 깊이의 턴들과 비교되도록 함으로써, 턴 간 IG 차이가 1.8배 증가한 상황에서 정확한 비교가 가능해짐.
분산 조정된 할인 누적을 통해, 턴 위치와 무관하게 이득 크기가 2.3배 더 안정적으로 유지되며, 깊은 턴에서의 과도한 증폭 문제를 해결.

🎯 왜 이것이 게임 체인저인가? :

기존 방식 → “모든 턴에 고정 클리핑 범위 적용, IG 누적에 분산 고려 없음”

→ 이 논문 → “각 턴의 IG에 따라 클리핑 범위 동적으로 조정, 턴 그룹 내 정규화 + 분산 보정 누적 적용”

논문 보기 → GitHub 코드 보기 ⭐ 7 → Dingwei Chen, Zefang Zong, Zhipeng Ma 외 5명

🏛️ 빅테크

Tencent Hunyuan

🚀 “정말로 ‘리스트’를 다루는 게 핵심이었나? LLM의 추론 성능은 단순히 ‘각각’이 아니라 ‘전체 리스트’에 달려 있었다!”

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

🏛️ 소속: Tencent Hunyuan (빅테크)

🏷️ 핵심 키워드: RLVR, policy optimization, response simplex, divergence minimization, target projection

💭 이런 질문을 해본 적 있나요?

“그룹 기반 RLVR가 왜 효과적인 걸까?”
“리턴이 ‘그룹 내 상대적 차이’로만 계산되면, 전체 리스트의 품질은 어떻게 높아지나?”
“LLM의 응답 다양성과 안정성을 동시에 유지하는 게 가능한가?”

[핵심 설명: 기존에는 ‘그룹 내 상대적 이득’으로 정책을 업데이트했지만, 이 논문은 ‘응답 단위의 다차원 공간’에서 명확한 목표 분포를 정의하고, 정확한 발산 최소화를 통해 정책을 프로젝션합니다.]

특히 주목할 점:

다양한 추론 태스크에서 기존 기법 대비 **평균 1.2~2.7배 향상**된 목표 함수 성능
**응답 다양성 유지율 98% 이상** 유지하면서도, **수렴 속도 3배 개선**된 경우도 확인

🎯 왜 이것이 게임 체인저인가? :

“그룹 내 상대적 이득”으로 정책 업데이트 → “응답 단위의 정밀한 목표 분포 프로젝션”으로 정책 최적화

논문 보기 → Yun Qu, Qi Wang, Yixiu Mao 외 11명

🏛️ 빅테크

Tencent

🧠 "LLM의 장기 맥락 이해를 위한 ‘전체 활성화’를 압축해도 성능이 떨어지지 않는 거야?"

MiA-Signature: Approximating Global Activation for Long-Context Understanding

🏛️ 소속: Tencent (빅테크)

🏷️ 핵심 키워드: global activation, compressed representation, submodular selection, long-context understanding, working memory refinement

💭 이런 질문을 해본 적 있나요?

“장기 맥락을 이해하려면 전체 텍스트를 떠올려야 하는데, 그게 불가능하잖아. 어떻게 해야 할까?”
“RAG나 에이전트 시스템에서 맥락을 압축하면 성능이 떨어지는데, 이걸 어떻게 극복할 수 있을까?”
“사람의 의식은 전체 기억을 동시에 쓰지 않는데, LLM은 왜 그걸 무시하나?”

[핵심 설명: 기존에는 전체 활성화 상태를 직접 처리해야 했는데, 이 논문은 ‘MiA-Signature’라는 압축된 활성화 패턴을 도입해 계산 비용을 줄이면서도 성능을 유지합니다.]

특히 주목할 점:

장기 맥락 이해 태스크에서 RAG와 에이전트 시스템에 적용했을 때, **기존 기법 대비 평균 2.3배 높은 정확도**를 달성
작업 메모리 기반 반복 업데이트를 통해 **10%의 추가 정확도 향상**을 달성 (기존 기법 대비)

🎯 왜 이것이 게임 체인저인가? :

“전체 활성화 상태를 정확히 재현하는 데 비용이 과도한 LLM → 압축된 활성화 패턴으로 대체하여 계산 효율성과 성능을 동시에 확보”

논문 보기 → Yuqing Li, Jiangnan Li, Mo Yu 외 3명

🏛️ 빅테크

ARC Lab, Tencent PCG

🖼️ "이미지 하나로 3D를 만들면, 그 3D가 원본 이미지에 얼마나 '정확하게 맞춰져' 있는지… 그게 진짜 문제였던 거야?"

Pixal3D: Pixel-Aligned 3D Generation from Images

🏛️ 소속: ARC Lab, Tencent PCG (빅테크)

🏷️ 핵심 키워드: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

💭 이런 질문을 해본 적 있나요?

“3D 모델이 이미지와 완전히 일치하지 않아서 사용할 수 없어…”
“왜 3D 생성 모델이 이미지에 대한 ‘픽셀 수준 정확도’가 떨어지지 않나?”
“단일 이미지로 3D 장면을 생성하려면, 어떻게 ‘픽셀-3D’ 매핑을 확보할 수 있을까?”

[핵심 설명: 기존에는 3D 모델을 캐나디언 포즈에서 생성하고 이미지 정보를 어텐션으로 주입했지만, 이 논문은 ‘픽셀 정렬’ 방식으로 3D를 직접 생성함으로써, 픽셀-3D 매핑을 명확히 해 ‘신뢰도’를 극대화]

특히 주목할 점:

3D 생성의 ‘픽셀 정확도’를 기존 대비 **12.7% 향상** (FID 3.5 → 2.9)
**3D 장면 합성**에서 객체 분리 정확도 **92.1%** 달성 (F1-score 기준)

🎯 왜 이것이 게임 체인저인가? :

“캐나디언 포즈에서 3D 생성 → 픽셀 정렬된 3D 공간에서 직접 생성”

논문 보기 → GitHub 코드 보기 ⭐ 149 → Dong-Yang Li, Wang Zhao, Yuxin Chen 외 5명

🏛️ 빅테크

alibaba-inc

🔥 " latent space를 ‘재구성 정확도’로만 보는 건 끝났다! 진짜 생성에 좋은 공간은 이렇게 생겼다"

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

🏛️ 소속: alibaba-inc (빅테크)

🏷️ 핵심 키워드: latent manifold, diffusion modeling, autoencoder, prior alignment, generative quality

💭 이런 질문을 해본 적 있나요?

“latent space의 구조가 생성 품질에 어떤 영향을 미치는 걸까?”
“재구성 정확도가 높으면 생성도 따라오나?”
“왜 기존 tokenizer는 생성 성능에 제한이 있는 걸까?”

[핵심 설명: 기존에는 latent space를 재구성 정확도나 사전 학습 표현 유전에 의존해 ‘자연스럽게’ 생성 친화적 구조를 만들었는데, 이 논문은 ‘명시적으로’ latent manifold를 설계하는 Prior-Aligned AutoEncoder(PAE)를 제안함]

특히 주목할 점:

ImageNet 256x256에서 RAE와 동등한 성능을 달성하면서 **최대 13배 빠른 수렴 속도**
**새로운 gFID 기록 1.03** 달성, 기존 최고 기록을 단숨에 뛰어넘음

🎯 왜 이것이 게임 체인저인가? :

기존 방식: “재구성 정확도를 최적화하며 생성 친화적 공간을 간접적으로 얻는다” → 새 방식: “공간 구조, 지역 연속성, 전역 의미를 명시적 목표로 설계해 생성 품질을 직접 조절한다”

논문 보기 → GitHub 코드 보기 ⭐ 37 → Zhengrong Yue, Taihang Hu, Mengting Chen 외 8명

Weekly AI Papers — 2026-05-13

매일 받아보세요