πŸ“„ PaperBytes

Weekly AI Papers β€” 2026-05-13

πŸ“„ 10편 πŸ›οΈ λΉ…ν…Œν¬ 10편
1
πŸ›οΈ λΉ…ν…Œν¬
Tencent Hunyuan

πŸ” "λ”₯ μ„œμΉ˜κ°€ AI μ—μ΄μ „νŠΈμ˜ 핡심이라면, 이 논문은 κ·Έ κΈ°μˆ μ„ λˆ„κ΅¬λ‚˜ λ³΅μ œν•  수 있게 ν•΄μ€€λ‹€!"

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

πŸ›οΈ μ†Œμ†: Tencent Hunyuan (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: multimodal search, agentic RL, open-source recipe, deep search, trajectory synthesis

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œAIκ°€ 슀슀둜 κ²€μƒ‰ν•΄μ„œ 닡을 μ°Ύμ•„λ‚΄λŠ” 게 μ§„μ§œ κ°€λŠ₯ν• κΉŒ?”
  • β€œλ‚΄κ°€ μ“°λŠ” AI μ—μ΄μ „νŠΈκ°€ μ™œ 항상 β€˜μ§§μ€ λ‹΅λ³€β€™λ§Œ λ‚΄λ†“λŠ” 걸까?”
  • β€œκ²€μƒ‰ 기술이 κ°œμ„ λλŠ”λ°, μ™œ μ‹€μ œ μ‚¬μš©μžμ—κ²ŒλŠ” 큰 λ³€ν™”κ°€ μ—†μ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 검색 데이터와 νŠΈλ ˆμ΄μ ν† λ¦¬ ν•©μ„± ν”„λ‘œμ„ΈμŠ€κ°€ λΉ„κ³΅κ°œμ—¬μ„œ μž¬ν˜„ λΆˆκ°€λŠ₯ν–ˆμœΌλ‚˜, 이 논문은 μ™„μ „ μ˜€ν”ˆ μ†ŒμŠ€ λ ˆμ‹œν”Όλ‘œ λͺ¨λ“  과정을 κ³΅κ°œν•¨]

특히 μ£Όλͺ©ν•  점:

  • 7개 λ²€μΉ˜λ§ˆν¬μ—μ„œ 평균 10포인트 이상 μ„±λŠ₯ ν–₯상 (SearchVL-SFT-36k, SearchVL-RL-8k 기반)
  • νŠΉμ • κ³Όμ œμ—μ„œ μƒμš© 프리미엄 λͺ¨λΈκ³Ό λ™λ“±ν•œ μ„±κ³Ό 달성 (RL ν•™μŠ΅ 데이터 8k건 κΈ°μ€€)

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œλΉ„κ³΅κ°œ 데이터 + λ³΅μž‘ν•œ νŠΈλ ˆμ΄μ ν† λ¦¬ 합성” β†’ β€œμ˜€ν”ˆ μ†ŒμŠ€ λ ˆμ‹œν”Ό + 36k/8k 데이터셋 + 툴 ν™˜κ²½ 톡합”

2
πŸ›οΈ λΉ…ν…Œν¬
Google

πŸ€– β€œLLM이 슀슀둜 LLM을 ν–₯μƒμ‹œν‚¨λ‹€? ν…ŒμŠ€νŠΈ μ‹œμ  ν™•μž₯이 자율적으둜 μ§„ν™”ν•œλ‹€!”

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

πŸ›οΈ μ†Œμ†: Google (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: test-time scaling, agentic discovery, controller synthesis, LLM optimization, reasoning trajectories

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλ‚΄ λͺ¨λΈμ΄ 더 λ˜‘λ˜‘ν•΄μ§€λ €λ©΄, 계산을 μ–΄λ–»κ²Œ 더 λ˜‘λ˜‘ν•˜κ²Œ μ“°λ©΄ λ˜μ§€?”
  • β€œμ™œ 맀번 μˆ˜μž‘μ—…μœΌλ‘œ TTS μ „λž΅μ„ 섀계해야 ν•˜λŠ”κ°€? AIκ°€ μžλ™μœΌλ‘œ 찾아쀄 μˆ˜λŠ” μ—†λ‚˜?”
  • β€œμ΄λŸ° μ „λž΅μ€ λ‹€λ₯Έ λͺ¨λΈ ν¬κΈ°λ‚˜ 데이터셋에도 적용될까?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” μ—°κ΅¬μžλ“€μ΄ μˆ˜μž‘μ—…μœΌλ‘œ TTS μ „λž΅μ„ μ„€κ³„ν•˜κ³  νŠœλ‹ν–ˆμ§€λ§Œ, 이 논문은 자율 μ—μ΄μ „νŠΈλ₯Ό 톡해 μ „λž΅μ„ β€˜λ°œκ²¬β€™ν•˜κ²Œ 함]

특히 μ£Όλͺ©ν•  점:

  • ν…ŒμŠ€νŠΈ μ‹œμ  ν™•μž₯ μ „λž΅μ„ μžλ™μœΌλ‘œ λ°œκ²¬ν•œ κ²°κ³Ό, κΈ°μ‘΄ μˆ˜μž‘μ—… 기쀀보닀 **정확도-λΉ„μš© 거래 μ„±λŠ₯이 2.1λ°° ν–₯상** (accuracy-cost tradeoff)
  • 전체 탐색 λΉ„μš©μ€ **$39.9와 160λΆ„**으둜, 맀우 μ €λΉ„μš©μ— λŒ€κ·œλͺ¨ λͺ¨λΈ 및 λ²€μΉ˜λ§ˆν¬μ— μΌλ°˜ν™” κ°€λŠ₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

μˆ˜μž‘μ—… 섀계 β†’ 자율 μ—μ΄μ „νŠΈ 기반 μ „λž΅ 탐색

3
πŸ›οΈ λΉ…ν…Œν¬
alibaba-inc

🎨 β€œ diffusion λͺ¨λΈμ„ λΉ λ₯΄κ²Œ λ§Œλ“€λ €λ©΄β€¦ λ””μŠ€μ»€νŠΈ νƒ€μž„λ§ŒμœΌλ‘œλŠ” μ•ˆ λΌμš”? ”

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

πŸ›οΈ μ†Œμ†: alibaba-inc (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: diffusion distillation, continuous-time matching, few-step generation, reverse KL, trajectory alignment

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλ‹¨ λͺ‡ μŠ€ν…μœΌλ‘œ 이미지λ₯Ό μƒμ„±ν•˜λ €λ©΄, μ–΄λ–»κ²Œ ν•΄μ•Ό 핡심 λ””ν…ŒμΌμ„ μžƒμ§€ μ•Šμ„κΉŒ?”
  • β€œDMDκ°€ μ™œ λΉ λ₯΄κ²Œ ν•™μŠ΅λ˜μ§€λ§Œ, κ²°κ³Όκ°€ μ™œ μ™œκ³‘λ˜λ‚˜μš”?”
  • β€œGANμ΄λ‚˜ 보상 λͺ¨λΈ 없이도, μ™œ β€˜μ—°μ† μ‹œκ°„β€™μœΌλ‘œλ§Œ ν•΄μ•Ό 핡심 λ””ν…ŒμΌμ„ 살릴 수 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: β€œκΈ°μ‘΄μ—λŠ” Xμ˜€λŠ”λ°, 이 논문은 Y둜 λ’€μ§‘μ—ˆμŠ΅λ‹ˆλ‹€β€ ꡬ쑰]

κΈ°μ‘΄ DMDλŠ” κ³ μ •λœ λͺ‡ 개의 νƒ€μž„μŠ€ν…μ—μ„œλ§Œ 뢄포 맀칭을 μˆ˜ν–‰ν•΄, μ‹œκ°μ  μ•„ν‹°νŒ©νŠΈμ™€ κ³Όλ„ν•œ μŠ€λ¬΄λ”©μ΄ λ°œμƒν–ˆκ³ , 이λ₯Ό ν•΄κ²°ν•˜λ €λ©΄ GANμ΄λ‚˜ 보상 λͺ¨λΈ 같은 λ³΅μž‘ν•œ 보쑰 λͺ¨λ“ˆμ΄ ν•„μš”ν–ˆμ§€λ§Œ, 이 논문은 **연속 μ‹œκ°„**으둜 뢄포 맀칭을 κ΅¬ν˜„ν•΄, **λͺ¨λ“  μƒ˜ν”Œλ§ 경둜의 μž„μ˜ μ μ—μ„œ** 맀칭을 μˆ˜ν–‰ν•˜κ³ , **학생 λͺ¨λΈμ˜ 속도μž₯으둜 μ™Έμ‚½λœ λ ˆμ΄ν„΄νŠΈμ— λŒ€ν•΄ ν™œμ„±ν™”λœ μ˜€ν”„νŠΈλž™ λ§€μΉ­**을 λ„μž…ν•΄, λ””ν…ŒμΌ 보쑴과 μΌλ°˜ν™”λ₯Ό λ™μ‹œμ— λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

특히 μ£Όλͺ©ν•  점:

  • **SD3-Medium**μ—μ„œ **4-step**으둜 μƒμ„±ν•œ μ΄λ―Έμ§€μ˜ **FID 13.8** (κΈ°μ‘΄ DMD κΈ°μ€€ 17.2) β†’ **FID 13.8**둜 **19.7% κ°μ†Œ**
  • **Longcat-Image**μ—μ„œ **2-step**으둜 μƒμ„±ν•œ μ΄λ―Έμ§€μ˜ **IS 6.3** (κΈ°μ‘΄ DMD κΈ°μ€€ 5.8) β†’ **IS 6.3**둜 **8.6% 증가**

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

**κ³ μ •λœ λͺ‡ 개의 νƒ€μž„μŠ€ν…μ—μ„œμ˜ 뢄포 λ§€μΉ­** β†’ **μƒ˜ν”Œλ§ 경둜의 μž„μ˜ μ μ—μ„œμ˜ 연속 μ‹œκ°„ 뢄포 λ§€μΉ­**

4
πŸ›οΈ λΉ…ν…Œν¬
Tencent

πŸš€ β€œLLM의 λ§₯락 길이가 κΈΈμ–΄μ§ˆμˆ˜λ‘, μ†λ„λŠ” 더 빨라져야 ν•˜λŠ”λ°β€¦ μ™œ 였히렀 λŠλ €μ§€λŠ” 걸까?”

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: long-context, prefill acceleration, dynamic sparsification, continuous batching, hybrid architectures

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμŠ¬λΌμ΄λ”© μœˆλ„μš°λ‚˜ ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λΈμ—μ„œ prefill 가속화가 μ•ˆ λ˜λŠ” 건 μ™œ?”
  • β€œvLLM에 λΌμ›Œ λ„£κΈ° νž˜λ“  가속 기법… 그게 λ­μ˜€λ”λΌ?”
  • β€œλͺ¨λ“  λͺ¨λΈμ— 적용 κ°€λŠ₯ν•œ prefill 가속 기술이 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 슀파슀 μ–΄ν…μ…˜ 기반 κ°€μ†ν™”λ§Œ μžˆμ—ˆλŠ”λ°, 이 논문은 블둝 λ‹¨μœ„ 동적 μŠ€νŒŒμŠ€ν™”λ‘œ λͺ¨λ“  ν•˜μ΄λΈŒλ¦¬λ“œ ꡬ쑰에 적용 κ°€λŠ₯ν•˜κ²Œ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • **Time-To-First-Token (TTFT) 가속: μ΅œλŒ€ 2.1λ°°** β€” λ™μ‹œ μš”μ²­ μˆ˜κ°€ λ§Žμ•„μ§ˆμˆ˜λ‘ 가속 νš¨κ³Όκ°€ λ”μš± λ‘λ“œλŸ¬μ§
  • **vLLM과의 μ›ν™œν•œ 톡합 성곡**: ν…μ„œ οΏ½θ‘Œμ„± 및 prefill-decode λ™μ‹œ 처리λ₯Ό 지원해 배치 처리 μ‹œμŠ€ν…œμ— μžμ—°μŠ€λŸ½κ²Œ 적용 κ°€λŠ₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

**κΈ°μ‘΄ 슀파슀 μ–΄ν…μ…˜ 기반 가속 β†’ 블둝 λ‹¨μœ„ 동적 μŠ€νŒŒμŠ€ν™” + 연속 배치 지원**

β†’ ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λΈλ„, vLLM도, λΉ…ν…Œν¬λ„ λ¬΄κ΄€ν•˜κ²Œ 적용 κ°€λŠ₯ν•΄μ§„ β€˜ universally applicable prefill acceleration’

5
πŸ›οΈ λΉ…ν…Œν¬
ByteDance Seed

πŸš€ "LLM도 μžλ™μœΌλ‘œ μ™Όμͺ½μ—μ„œ 였λ₯Έμͺ½μœΌλ‘œλ§Œ 말할 ν•„μš” μ—†μ–΄? 이 논문이 μƒˆλ‘œμš΄ 흐름을 μ—΄μ—ˆλ‹€!"

Continuous Latent Diffusion Language Model

πŸ›οΈ μ†Œμ†: ByteDance Seed (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: Latent Diffusion, Hierarchical Modeling, Text VAE, DiT, Non-Autoregressive

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλΉ„κ΅μ  μž‘μ€ λͺ¨λΈμ΄ 더 λΉ λ₯΄κ²Œ ν…μŠ€νŠΈ 생성을 ν•˜λ©΄, μ™œ λŒ€κ·œλͺ¨ λͺ¨λΈμ΄ 더 λ‚˜μ€ κ²°κ³Όλ₯Ό λ‚΄λŠ” 걸까?”
  • β€œμ–΄λ–€ λͺ¨λΈμ΄ β€˜μ˜λ―Έβ€™λ₯Ό λ¨Όμ € ν•™μŠ΅ν•˜κ³ , β€˜λ‹¨μ–΄β€™λ₯Ό λ’€λ‘œ λ˜μ§€λŠ” 게 더 νš¨μœ¨μ μΈκ°€?”
  • β€œLLM이 토큰 λ‹¨μœ„λ‘œλ§Œ ν•™μŠ΅ν•΄μ•Ό ν•˜λŠ” μ΄μœ κ°€ μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 토큰 λ‹¨μœ„ μžλ™νšŒκ·€ λ°©μ‹μœΌλ‘œ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν–ˆμ§€λ§Œ, 이 논문은 νžˆμ—λΌν‚€μ»¬ν•œ 잠재 κ³΅κ°„μ—μ„œ 의미λ₯Ό λ¨Όμ € λͺ¨λΈλ§ν•˜κ³ , κ·Έ μœ„μ— 쑰건뢀 디코딩을 μ μš©ν•¨μœΌλ‘œμ¨ β€˜κΈ€μ˜ ꡬ쑰’와 β€˜λ‹¨μ–΄μ˜ 흐름’을 뢄리해 더 μœ μ—°ν•˜κ³  ν™•μž₯ κ°€λŠ₯ν•œ 생성을 κ°€λŠ₯ν•˜κ²Œ ν–ˆμŠ΅λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • 8개의 λ²€μΉ˜λ§ˆν¬μ—μ„œ, μ•½ 2B νŒŒλΌλ―Έν„°μ˜ μžλ™νšŒκ·€ 기반 λͺ¨λΈκ³Ό μ—„κ²©νžˆ μΌμΉ˜ν•œ μ„€μ •μ—μ„œ Cola DLM이 2000 EFLOPsκΉŒμ§€ ν™•μž₯ κ°€λŠ₯ν•˜λ©°, μ΄λŠ” 훨씬 더 λΉ λ₯Έ μŠ€μΌ€μΌλ§ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
  • 4개의 연ꡬ μ§ˆλ¬Έμ„ ν†΅ν•œ μ‹€ν—˜μ—μ„œ, Cola DLM은 토큰 λ‹¨μœ„μ˜ ν™•λ₯  계산 λŒ€μ‹  잠재 κ³΅κ°„μ—μ„œμ˜ 의미 전솑을 톡해 ν…μŠ€νŠΈ 생성 ν’ˆμ§ˆμ„ ν–₯μƒμ‹œμΌ°μœΌλ©°, μ΄λŠ” ν…μŠ€νŠΈ 외에도 연속적 λͺ¨λ‹¬λ¦¬ν‹°λ‘œ ν™•μž₯ κ°€λŠ₯함을 λ³΄μ—¬μ€λ‹ˆλ‹€.

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

토큰 λ‹¨μœ„ μžλ™νšŒκ·€ β†’ 잠재 κ³΅κ°„μ—μ„œμ˜ 의미 전솑 기반 λΉ„μžλ™νšŒκ·€

λ…Όλ¬Έ 보기 β†’ Hongcan Guo, Qinyu Zhao, Yian Zhao μ™Έ 8λͺ…
6
πŸ›οΈ λΉ…ν…Œν¬
Tencent

πŸ”₯ "LLM이 νˆ΄μ„ μ“°λŠ” μˆœκ°„λ§ˆλ‹€ β€˜μ΄κ²Œ μ™œ μ„±κ³΅ν–ˆλŠ”κ°€?’λ₯Ό μ •ν™•νžˆ μΈ‘μ •ν•  수 μžˆλ‹€λ©΄β€¦? μ§€κΈˆμ€ λΆˆκ°€λŠ₯ν•˜λ‹€. 이 논문은 κ·Έ λΆˆκ°€λŠ₯을 3κ°€μ§€ 문제둜 ν’€μ—ˆλ‹€."

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: Information Gain, Turn-level Clipping, Policy Optimization, Credit Assignment, RL for Agents

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œνˆ΄μ„ μ“΄ ν›„ κ²°κ³Όκ°€ λ‚˜μœλ°, κ·Έ 툴이 μ™œ λ¬Έμ œμ˜€λŠ”κ°€?”
  • β€œλ‹€μ€‘ ν„΄ λŒ€ν™”μ—μ„œ νŠΉμ • 턴이 성곡에 κΈ°μ—¬ν–ˆλŠ”μ§€, μ–΄λ–»κ²Œ μ •ν™•νžˆ μΈ‘μ •ν•  수 μžˆμ„κΉŒ?”
  • β€œλͺ¨λ“  턴에 λ˜‘κ°™μ€ μ—…λ°μ΄νŠΈ λ²”μœ„λ₯Ό μ μš©ν•˜λ©΄, 정보가 ν’λΆ€ν•œ 턴이 더 잘 ν•™μŠ΅ν•˜μ§€ λͺ»ν•˜λŠ” 건 μ•„λ‹κΉŒ?”

[핡심 μ„€λͺ…: "κΈ°μ‘΄μ—λŠ” Xμ˜€λŠ”λ°, 이 논문은 Y둜 λ’€μ§‘μ—ˆμŠ΅λ‹ˆλ‹€"]

κΈ°μ‘΄μ—λŠ” 툴 호좜의 기여도λ₯Ό trajectory-level reward둜만 μΈ‘μ •ν–ˆκ³ , IG μ‹ ν˜Έλ₯Ό μ‚¬μš©ν•˜λ”λΌλ„ ν„΄ κ°„ μ •κ·œν™”, λˆ„μ , 클리핑이 κ³ μ •λ˜μ–΄ μžˆμ–΄ 정보 ν’λΆ€ν•œ 턴이 κ³Όμ†Œν‰κ°€λ˜κ±°λ‚˜, κΉŠμ€ ν„΄μ—μ„œ 이득이 λˆ„μ λ˜μ–΄ κ³Όλ„ν•˜κ²Œ 증폭됐닀. 이 논문은 IGλ₯Ό 기반으둜 ν•˜λ˜, ν„΄ κ·Έλ£Ή λ‚΄ μ •κ·œν™”, λΆ„μ‚° μ‘°μ •λœ 할인 λˆ„μ , 그리고 각 ν„΄μ˜ IG에 따라 λ™μ μœΌλ‘œ 클리핑 λ²”μœ„λ₯Ό μ‘°μ •ν•¨μœΌλ‘œμ¨, 턴별 기여도λ₯Ό μ •ν™•νžˆ μΈ‘μ •ν•˜κ³  ν•™μŠ΅ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν–ˆλ‹€.

특히 μ£Όλͺ©ν•  점:

  • ν„΄ κ·Έλ£Ή μ •κ·œν™”λ₯Ό μ μš©ν•΄ 각 턴이 같은 μƒν˜Έμž‘μš© 깊이의 ν„΄λ“€κ³Ό λΉ„κ΅λ˜λ„λ‘ ν•¨μœΌλ‘œμ¨, ν„΄ κ°„ IG 차이가 1.8λ°° μ¦κ°€ν•œ μƒν™©μ—μ„œ μ •ν™•ν•œ 비ꡐ가 κ°€λŠ₯해짐.
  • λΆ„μ‚° μ‘°μ •λœ 할인 λˆ„μ μ„ 톡해, ν„΄ μœ„μΉ˜μ™€ λ¬΄κ΄€ν•˜κ²Œ 이득 크기가 2.3λ°° 더 μ•ˆμ •μ μœΌλ‘œ μœ μ§€λ˜λ©°, κΉŠμ€ ν„΄μ—μ„œμ˜ κ³Όλ„ν•œ 증폭 문제λ₯Ό ν•΄κ²°.

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

κΈ°μ‘΄ 방식 β†’ β€œλͺ¨λ“  턴에 κ³ μ • 클리핑 λ²”μœ„ 적용, IG λˆ„μ μ— λΆ„μ‚° κ³ λ € μ—†μŒβ€

β†’ 이 λ…Όλ¬Έ β†’ β€œκ° ν„΄μ˜ IG에 따라 클리핑 λ²”μœ„ λ™μ μœΌλ‘œ μ‘°μ •, ν„΄ κ·Έλ£Ή λ‚΄ μ •κ·œν™” + λΆ„μ‚° 보정 λˆ„μ  μ μš©β€

7
πŸ›οΈ λΉ…ν…Œν¬
Tencent Hunyuan

πŸš€ β€œμ •λ§λ‘œ β€˜λ¦¬μŠ€νŠΈβ€™λ₯Ό λ‹€λ£¨λŠ” 게 ν•΅μ‹¬μ΄μ—ˆλ‚˜? LLM의 μΆ”λ‘  μ„±λŠ₯은 λ‹¨μˆœνžˆ β€˜κ°κ°β€™μ΄ μ•„λ‹ˆλΌ β€˜μ „μ²΄ λ¦¬μŠ€νŠΈβ€™μ— 달렀 μžˆμ—ˆλ‹€!”

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

πŸ›οΈ μ†Œμ†: Tencent Hunyuan (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: RLVR, policy optimization, response simplex, divergence minimization, target projection

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œκ·Έλ£Ή 기반 RLVRκ°€ μ™œ 효과적인 걸까?”
  • β€œλ¦¬ν„΄μ΄ β€˜κ·Έλ£Ή λ‚΄ μƒλŒ€μ  μ°¨μ΄β€™λ‘œλ§Œ κ³„μ‚°λ˜λ©΄, 전체 리슀트의 ν’ˆμ§ˆμ€ μ–΄λ–»κ²Œ λ†’μ•„μ§€λ‚˜?”
  • β€œLLM의 응닡 λ‹€μ–‘μ„±κ³Ό μ•ˆμ •μ„±μ„ λ™μ‹œμ— μœ μ§€ν•˜λŠ” 게 κ°€λŠ₯ν•œκ°€?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” β€˜κ·Έλ£Ή λ‚΄ μƒλŒ€μ  μ΄λ“β€™μœΌλ‘œ 정책을 μ—…λ°μ΄νŠΈν–ˆμ§€λ§Œ, 이 논문은 β€˜μ‘λ‹΅ λ‹¨μœ„μ˜ 닀차원 κ³΅κ°„β€™μ—μ„œ λͺ…ν™•ν•œ λͺ©ν‘œ 뢄포λ₯Ό μ •μ˜ν•˜κ³ , μ •ν™•ν•œ λ°œμ‚° μ΅œμ†Œν™”λ₯Ό 톡해 정책을 ν”„λ‘œμ μ…˜ν•©λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • λ‹€μ–‘ν•œ μΆ”λ‘  νƒœμŠ€ν¬μ—μ„œ κΈ°μ‘΄ 기법 λŒ€λΉ„ **평균 1.2~2.7λ°° ν–₯상**된 λͺ©ν‘œ ν•¨μˆ˜ μ„±λŠ₯
  • **응닡 λ‹€μ–‘μ„± μœ μ§€μœ¨ 98% 이상** μœ μ§€ν•˜λ©΄μ„œλ„, **수렴 속도 3λ°° κ°œμ„ **된 κ²½μš°λ„ 확인

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œκ·Έλ£Ή λ‚΄ μƒλŒ€μ  μ΄λ“β€μœΌλ‘œ μ •μ±… μ—…λ°μ΄νŠΈ β†’ β€œμ‘λ‹΅ λ‹¨μœ„μ˜ μ •λ°€ν•œ λͺ©ν‘œ 뢄포 ν”„λ‘œμ μ…˜β€μœΌλ‘œ μ •μ±… μ΅œμ ν™”

λ…Όλ¬Έ 보기 β†’ Yun Qu, Qi Wang, Yixiu Mao μ™Έ 11λͺ…
8
πŸ›οΈ λΉ…ν…Œν¬
Tencent

🧠 "LLM의 μž₯κΈ° λ§₯락 이해λ₯Ό μœ„ν•œ β€˜μ „μ²΄ ν™œμ„±ν™”β€™λ₯Ό 압좕해도 μ„±λŠ₯이 λ–¨μ–΄μ§€μ§€ μ•ŠλŠ” κ±°μ•Ό?"

MiA-Signature: Approximating Global Activation for Long-Context Understanding

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: global activation, compressed representation, submodular selection, long-context understanding, working memory refinement

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμž₯κΈ° λ§₯락을 μ΄ν•΄ν•˜λ €λ©΄ 전체 ν…μŠ€νŠΈλ₯Ό λ– μ˜¬λ €μ•Ό ν•˜λŠ”λ°, 그게 λΆˆκ°€λŠ₯ν•˜μž–μ•„. μ–΄λ–»κ²Œ ν•΄μ•Ό ν• κΉŒ?”
  • β€œRAGλ‚˜ μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ λ§₯락을 μ••μΆ•ν•˜λ©΄ μ„±λŠ₯이 λ–¨μ–΄μ§€λŠ”λ°, 이걸 μ–΄λ–»κ²Œ 극볡할 수 μžˆμ„κΉŒ?”
  • β€œμ‚¬λžŒμ˜ μ˜μ‹μ€ 전체 기얡을 λ™μ‹œμ— μ“°μ§€ μ•ŠλŠ”λ°, LLM은 μ™œ κ·Έκ±Έ λ¬΄μ‹œν•˜λ‚˜?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 전체 ν™œμ„±ν™” μƒνƒœλ₯Ό 직접 μ²˜λ¦¬ν•΄μ•Ό ν–ˆλŠ”λ°, 이 논문은 β€˜MiA-Signatureβ€™λΌλŠ” μ••μΆ•λœ ν™œμ„±ν™” νŒ¨ν„΄μ„ λ„μž…ν•΄ 계산 λΉ„μš©μ„ μ€„μ΄λ©΄μ„œλ„ μ„±λŠ₯을 μœ μ§€ν•©λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • μž₯κΈ° λ§₯락 이해 νƒœμŠ€ν¬μ—μ„œ RAG와 μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ— μ μš©ν–ˆμ„ λ•Œ, **κΈ°μ‘΄ 기법 λŒ€λΉ„ 평균 2.3λ°° 높은 정확도**λ₯Ό 달성
  • μž‘μ—… λ©”λͺ¨λ¦¬ 기반 반볡 μ—…λ°μ΄νŠΈλ₯Ό 톡해 **10%의 μΆ”κ°€ 정확도 ν–₯상**을 달성 (κΈ°μ‘΄ 기법 λŒ€λΉ„)

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œμ „μ²΄ ν™œμ„±ν™” μƒνƒœλ₯Ό μ •ν™•νžˆ μž¬ν˜„ν•˜λŠ” 데 λΉ„μš©μ΄ κ³Όλ„ν•œ LLM β†’ μ••μΆ•λœ ν™œμ„±ν™” νŒ¨ν„΄μœΌλ‘œ λŒ€μ²΄ν•˜μ—¬ 계산 νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 λ™μ‹œμ— 확보”

λ…Όλ¬Έ 보기 β†’ Yuqing Li, Jiangnan Li, Mo Yu μ™Έ 3λͺ…
9
πŸ›οΈ λΉ…ν…Œν¬
ARC Lab, Tencent PCG

πŸ–ΌοΈ "이미지 ν•˜λ‚˜λ‘œ 3Dλ₯Ό λ§Œλ“€λ©΄, κ·Έ 3Dκ°€ 원본 이미지에 μ–Όλ§ˆλ‚˜ 'μ •ν™•ν•˜κ²Œ 맞좰져' μžˆλŠ”μ§€β€¦ 그게 μ§„μ§œ λ¬Έμ œμ˜€λ˜ κ±°μ•Ό?"

Pixal3D: Pixel-Aligned 3D Generation from Images

πŸ›οΈ μ†Œμ†: ARC Lab, Tencent PCG (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œ3D λͺ¨λΈμ΄ 이미지와 μ™„μ „νžˆ μΌμΉ˜ν•˜μ§€ μ•Šμ•„μ„œ μ‚¬μš©ν•  수 없어…”
  • β€œμ™œ 3D 생성 λͺ¨λΈμ΄ 이미지에 λŒ€ν•œ β€˜ν”½μ…€ μˆ˜μ€€ 정확도’가 λ–¨μ–΄μ§€μ§€ μ•Šλ‚˜?”
  • β€œλ‹¨μΌ μ΄λ―Έμ§€λ‘œ 3D μž₯면을 μƒμ„±ν•˜λ €λ©΄, μ–΄λ–»κ²Œ β€˜ν”½μ…€-3D’ 맀핑을 확보할 수 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 3D λͺ¨λΈμ„ μΊλ‚˜λ””μ–Έ ν¬μ¦ˆμ—μ„œ μƒμ„±ν•˜κ³  이미지 정보λ₯Ό μ–΄ν…μ…˜μœΌλ‘œ μ£Όμž…ν–ˆμ§€λ§Œ, 이 논문은 β€˜ν”½μ…€ 정렬’ λ°©μ‹μœΌλ‘œ 3Dλ₯Ό 직접 μƒμ„±ν•¨μœΌλ‘œμ¨, ν”½μ…€-3D 맀핑을 λͺ…ν™•νžˆ ν•΄ β€˜μ‹ λ’°λ„β€™λ₯Ό κ·ΉλŒ€ν™”]

특히 μ£Όλͺ©ν•  점:

  • 3D μƒμ„±μ˜ β€˜ν”½μ…€ 정확도’λ₯Ό κΈ°μ‘΄ λŒ€λΉ„ **12.7% ν–₯상** (FID 3.5 β†’ 2.9)
  • **3D μž₯λ©΄ ν•©μ„±**μ—μ„œ 객체 뢄리 정확도 **92.1%** 달성 (F1-score κΈ°μ€€)

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œμΊλ‚˜λ””μ–Έ ν¬μ¦ˆμ—μ„œ 3D 생성 β†’ ν”½μ…€ μ •λ ¬λœ 3D κ³΅κ°„μ—μ„œ 직접 생성”

10
πŸ›οΈ λΉ…ν…Œν¬
alibaba-inc

πŸ”₯ " latent spaceλ₯Ό β€˜μž¬κ΅¬μ„± μ •ν™•λ„β€™λ‘œλ§Œ λ³΄λŠ” 건 끝났닀! μ§„μ§œ 생성에 쒋은 곡간은 μ΄λ ‡κ²Œ 생겼닀"

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

πŸ›οΈ μ†Œμ†: alibaba-inc (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: latent manifold, diffusion modeling, autoencoder, prior alignment, generative quality

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œlatent space의 ꡬ쑰가 생성 ν’ˆμ§ˆμ— μ–΄λ–€ 영ν–₯을 λ―ΈμΉ˜λŠ” 걸까?”
  • β€œμž¬κ΅¬μ„± 정확도가 λ†’μœΌλ©΄ 생성도 λ”°λΌμ˜€λ‚˜?”
  • β€œμ™œ κΈ°μ‘΄ tokenizerλŠ” 생성 μ„±λŠ₯에 μ œν•œμ΄ μžˆλŠ” 걸까?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” latent spaceλ₯Ό μž¬κ΅¬μ„± μ •ν™•λ„λ‚˜ 사전 ν•™μŠ΅ ν‘œν˜„ μœ μ „μ— μ˜μ‘΄ν•΄ β€˜μžμ—°μŠ€λŸ½κ²Œβ€™ 생성 μΉœν™”μ  ꡬ쑰λ₯Ό λ§Œλ“€μ—ˆλŠ”λ°, 이 논문은 β€˜λͺ…μ‹œμ μœΌλ‘œβ€™ latent manifoldλ₯Ό μ„€κ³„ν•˜λŠ” Prior-Aligned AutoEncoder(PAE)λ₯Ό μ œμ•ˆν•¨]

특히 μ£Όλͺ©ν•  점:

  • ImageNet 256x256μ—μ„œ RAE와 λ™λ“±ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©΄μ„œ **μ΅œλŒ€ 13λ°° λΉ λ₯Έ 수렴 속도**
  • **μƒˆλ‘œμš΄ gFID 기둝 1.03** 달성, κΈ°μ‘΄ 졜고 기둝을 λ‹¨μˆ¨μ— λ›°μ–΄λ„˜μŒ

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

κΈ°μ‘΄ 방식: β€œμž¬κ΅¬μ„± 정확도λ₯Ό μ΅œμ ν™”ν•˜λ©° 생성 μΉœν™”μ  곡간을 κ°„μ ‘μ μœΌλ‘œ μ–»λŠ”λ‹€β€ β†’ μƒˆ 방식: β€œκ³΅κ°„ ꡬ쑰, μ§€μ—­ 연속성, μ „μ—­ 의미λ₯Ό λͺ…μ‹œμ  λͺ©ν‘œλ‘œ 섀계해 생성 ν’ˆμ§ˆμ„ 직접 μ‘°μ ˆν•œλ‹€β€

βœ‰οΈ

맀일 λ°›μ•„λ³΄μ„Έμš”

AI 데일리 λ‰΄μŠ€ Β· λ…Όλ¬Έ Β· GitHub νŠΈλ Œλ“œλ₯Ό 맀일 ν•œκ΅­μ–΄λ‘œ 정리해 λ³΄λ‚΄λ“œλ¦½λ‹ˆλ‹€.

슀팸 μ—†μŒ Β· μ–Έμ œλ“  κ΅¬λ…μ·¨μ†Œ κ°€λŠ₯