πŸ“„ PaperBytes

Weekly AI Papers β€” 2026-05-12

πŸ“„ 10편 πŸ›οΈ λΉ…ν…Œν¬ 10편
1
πŸ›οΈ λΉ…ν…Œν¬
Tencent Hunyuan

πŸ” "λ”₯ μ„œμΉ˜κ°€ AI μ—μ΄μ „νŠΈμ˜ λ‡Œλ₯Ό λ°”κΎΌλ‹€? 이 논문이 μ „λΆ€ μ•Œλ €μ€„ κ±°μ•Ό"

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

πŸ›οΈ μ†Œμ†: Tencent Hunyuan (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: multimodal search, agentic RL, open recipe, trajectory synthesis, deep search

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œAIκ°€ 슀슀둜 κ²€μƒ‰ν•˜κ³  증거λ₯Ό 확인해 문제λ₯Ό ν’€ 수 μžˆλ‹€λ©΄, μ™œ κ·Έκ±Έ κ³΅κ°œν•˜μ§€?”
  • β€œλ‚΄κ°€ μ“°λŠ” AI μ—μ΄μ „νŠΈκ°€ β€˜λ‹¨κ³„μ  좔둠’을 ν•˜λ €λ©΄, μ–΄λ–€ 데이터와 νŠΈλ ˆμ΄λ‹ λ ˆμ‹œν”Όκ°€ ν•„μš”ν• κΉŒ?”
  • β€œμžκΈ°λ§Œμ˜ 검색 도ꡬλ₯Ό λ§Œλ“€κ³  싢은데, μ½”λ“œμ™€ 데이터가 곡개된 논문이 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 검색 μ—μ΄μ „νŠΈκ°€ ν•™μŠ΅μš© 데이터와 νŠΈλ ˆμ΄λ‹ νŒŒμ΄ν”„λΌμΈμ„ λΉ„κ³΅κ°œλ‘œ μœ μ§€ν•˜λ©°, μž¬ν˜„μ΄ μ–΄λ €μ› λŠ”λ°, 이 논문은 μ™„μ „ μ˜€ν”ˆ μ†ŒμŠ€ λ ˆμ‹œν”Όλ₯Ό κ³΅κ°œν•΄ λˆ„κ΅¬λ‚˜ λ™μΌν•œ μ„±λŠ₯을 μž¬ν˜„ν•  수 있게 ν–ˆμŠ΅λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • 7개의 λ²€μΉ˜λ§ˆν¬μ—μ„œ 평균 10포인트 μ΄μƒμ˜ μ„±λŠ₯ ν–₯상, SearchVL-RL-8k 데이터셋 기반
  • μƒμ—…μš© λͺ¨λΈκ³Ό 경쟁 μˆ˜μ€€μ˜ κ²°κ³Ό 달성 β€” 특히 8k RL 데이터셋을 기반으둜 ν•œ 닀쀑 단계 μΆ”λ‘  μ„±λŠ₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œλΉ„κ³΅κ°œ 데이터 + λ³΅μž‘ν•œ νŠΈλ ˆμ΄λ‹ νŒŒμ΄ν”„λΌμΈβ€ β†’ β€œμ˜€ν”ˆ μ†ŒμŠ€ λ ˆμ‹œν”Ό + 36k SFT + 8k RL + 자율 도ꡬ ν™˜κ²½β€

2
πŸ›οΈ λΉ…ν…Œν¬
Google

πŸ€– β€œLLM이 LLM을 ν–₯μƒμ‹œν‚€λŠ” 게 κ°€λŠ₯ν•œ κ±°μ•Ό? 그게 μ§„μ§œ ν˜„μ‹€μ΄μ•Ό!”

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

πŸ›οΈ μ†Œμ†: Google (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: test-time scaling, agentic discovery, controller synthesis, mathematical reasoning, LLM optimization

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμ™œ λ‚΄κ°€ μ„€κ³„ν•œ TTS μ „λž΅μ΄ 항상 μ΅œμ ν™”κ°€ μ•ˆ λ˜λŠ” κ±°μ•Ό?”
  • β€œμ‚¬λžŒμ΄ 직접 λ§Œλ“  κ·œμΉ™λ³΄λ‹€ AIκ°€ 자율적으둜 μ°Ύμ•„λ‚Έ μ „λž΅μ΄ 더 λ‚˜μ€ κ±°μ•Ό?”
  • β€œLLM의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 μΆ”κ°€ 계산을 μ“°λŠ” 게 λΉ„νš¨μœ¨μ μΈ 건가?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” μ—°κ΅¬μžλ“€μ΄ μˆ˜μž‘μ—…μœΌλ‘œ TTS μ „λž΅μ„ μ„€κ³„ν•˜κ³  νŠœλ‹ν–ˆμ§€λ§Œ, 이 논문은 자율적으둜 μ „λž΅μ„ β€˜λ°œκ²¬β€™ν•˜κ²Œ λ§Œλ“œλŠ” ν™˜κ²½ 기반 ν”„λ ˆμž„μ›Œν¬ AutoTTSλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • μˆ˜ν•™ μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ 발견된 μ „λž΅μ΄ κΈ°μ‘΄ μˆ˜μž‘μ—… 졜고 기쀀보닀 **정확도-λΉ„μš© κ±°λž˜λΉ„μœ¨μ„ 12.3% ν–₯상**μ‹œμΌ°μŒ (μ‹€ν—˜ κΈ°μ€€)
  • 전체 발견 과정이 **$39.9와 160λΆ„**λ§Œμ— μ™„λ£Œλ˜μ—ˆμœΌλ©°, μ΄λŠ” μˆ˜μž‘μ—… 섀계보닀 **λΉ„μš© 절감λ₯  89%** 달성

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œμ—°κ΅¬μž μˆ˜μž‘μ—… 섀계 β†’ 자율 ν™˜κ²½μ—μ„œ AIκ°€ μ „λž΅μ„ λ°œκ²¬ν•˜λŠ” μ‹œμŠ€ν…œβ€

3
πŸ›οΈ λΉ…ν…Œν¬
alibaba-inc

🎨 β€œ diffusion λͺ¨λΈ 가속화에 β€˜μ‹œκ°„μ΄ μ§€λ‚˜λ„ λŠκΉ€ 없이 ν•™μŠ΅β€™ν•˜λŠ” 방법이 λ‚˜μ™”λ„€? μ •λ§λ‘œ?”

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

πŸ›οΈ μ†Œμ†: alibaba-inc (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: Continuous-Time, Distribution Matching, Diffusion Distillation, Few-Step Sampling, Latent Alignment

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλͺ‡ μŠ€ν…λ§ŒμœΌλ‘œλ„ 이미지 생성이 λΉ λ₯΄κ²Œ λ˜λŠ” κ±°μ£ ? 그런데 μ™œ 또 μ™œκ³‘μ΄ 생기죠?”
  • β€œDMDλŠ” μ™œ β€˜λͺ‡ 개의 κ³ μ • μ‹œκ°„μ β€™λ§ŒμœΌλ‘œ ν•™μŠ΅μ„ ν•˜κ²Œ λ˜λŠ” κ±ΈκΉŒμš”?”
  • β€œGANμ΄λ‚˜ 보상 λͺ¨λΈ 같은 λΆ€κ°€ λͺ¨λ“ˆ 없이도, ν’ˆμ§ˆμ΄ 높은 이미지가 λ‚˜μ˜¬ 수 μžˆμ„κΉŒμš”?”

[핡심 μ„€λͺ…: "κΈ°μ‘΄μ—λŠ” Xμ˜€λŠ”λ°, 이 논문은 Y둜 λ’€μ§‘μ—ˆμŠ΅λ‹ˆλ‹€" ꡬ쑰]

κΈ°μ‘΄ DMDλŠ” κ³ μ •λœ λͺ‡ 개의 μ‹œκ°„μ μ—μ„œ 뢄포λ₯Ό λ§€μΉ­ν•΄ ν•™μŠ΅ν–ˆμ§€λ§Œ, CDM은 **연속 μ‹œκ°„ μŠ€μΌ€μ€„**둜 ν•™μŠ΅μ„ μž¬μ„€κ³„ν•΄ **μƒ˜ν”Œλ§ 경둜 μ–΄λ””μ„œλ“  뢄포 맀칭을 μ‹€μ‹œκ°„μœΌλ‘œ 적용**ν•©λ‹ˆλ‹€. 이둜 인해 μ΄λ―Έμ§€μ˜ λ―Έμ„Έν•œ λ””ν…ŒμΌκ³Ό μžμ—°μŠ€λŸ¬μš΄ ν…μŠ€μ²˜κ°€ 보쑴되며, λ³΅μž‘ν•œ 보쑰 λͺ¨λ“ˆ 없이도 높은 ν’ˆμ§ˆμ„ λ‹¬μ„±ν•©λ‹ˆλ‹€.

특히 μ£Όλͺ©ν•  점:

  • **SD3-Medium λͺ¨λΈμ—μ„œ 20-step둜 μƒμ„±ν•œ μ΄λ―Έμ§€μ˜ FIDκ°€ 12.8둜, κΈ°μ‘΄ DMD λŒ€λΉ„ 2.1 포인트 κ°μ†Œ**
  • **Longcat-Image λͺ¨λΈμ—μ„œ 10-step둜 μƒμ„±ν•œ μ΄λ―Έμ§€μ˜ PPL이 3.2둜, κΈ°μ‘΄ DMD λŒ€λΉ„ 0.8 포인트 κ°μ†Œ**

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

**κΈ°μ‘΄ DMD: κ³ μ •λœ λͺ‡ 개의 μ‹œκ°„μ μ—μ„œ 뢄포 λ§€μΉ­ β†’ CDM: 연속 μ‹œκ°„ μŠ€μΌ€μ€„ + μ˜€ν”„-νŠΈλž™ μ μ—μ„œμ˜ λ ˆμ΄ν„΄νŠΈ 맀칭으둜 λ―Έμ„Έ λ””ν…ŒμΌ 보쑴**

4
πŸ›οΈ λΉ…ν…Œν¬
Tencent

πŸš€ β€œLLM의 λ§₯락 길이가 κΈΈμ–΄μ§ˆμˆ˜λ‘ μ†λ„λŠ” 더 빨라져야 ν•˜λŠ”λ°β€¦ μ™œ 였히렀 더 λŠλ €μ§€μ£ ?”

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: long-context, prefill acceleration, dynamic sparsification, continuous batching, hybrid attention

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμŠ¬λΌμ΄λ”© μœˆλ„μš°λ‚˜ ν•˜μ΄λΈŒλ¦¬λ“œ μ–΄ν…μ…˜ λͺ¨λΈμ—μ„  속도가 λ–¨μ–΄μ§€λŠ” 거… μ™œεε 이거만?”
  • β€œvLLM에 λΌμ›Œ λ„£κΈ° νž˜λ“  prefill 가속 기법이 μžˆμ—ˆλŠ”λ°, μ΄μ œλŠ” κ·Έλƒ₯ λΌμ›Œ 넣을 수 있게 λλ‚˜μš”?”
  • β€œλͺ¨λΈ ꡬ쑰에 상관없이 속도λ₯Ό λŒμ–΄μ˜¬λ¦¬λŠ” 게 κ°€λŠ₯ν•œ 거라면… μ™œ μ§€κΈˆκΉŒμ§€ λͺ» ν–ˆμ£ ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” β€œμŠ€νŒŒμŠ€ μ–΄ν…μ…˜ 기반 가속”이 μ „λΆ€μ˜€κ³ , 이 논문은 β€œν† ν° λ‹¨μœ„ 계산 가속 + 연속 배치 μ§€μ›β€μœΌλ‘œ λͺ¨λ“  ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λΈμ— 적용 κ°€λŠ₯ν•˜κ²Œ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • **Time-To-First-Token (TTFT) μ΅œλŒ€ 2.1λ°° 가속** β€” λ™μ‹œ μš”μ²­ μˆ˜κ°€ λ§Žμ•„μ§ˆμˆ˜λ‘ 가속 νš¨κ³Όκ°€ λ”μš± λ‘λ“œλŸ¬μ§
  • **vLLM과의 μ›ν™œν•œ 톡합** β€” ν…μ„œ �葌 λΆ„ν•  및 prefill-decode λ™μ‹œ 처리λ₯Ό μœ„ν•œ μŠ€μΌ€μ€„λ§ μ „λž΅ ν™•μž₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

**β€œμŠ€νŒŒμŠ€ μ–΄ν…μ…˜λ§ŒμœΌλ‘œ κ°€μ†ν•œ λͺ¨λΈ β†’ 토큰 λ‹¨μœ„ 동적 μŠ€νŒŒμŠ€ν™” + 연속 배치 μ§€μ›μœΌλ‘œ λͺ¨λ“  ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λΈμ— 적용 κ°€λŠ₯”**

5
πŸ›οΈ λΉ…ν…Œν¬
ByteDance Seed

πŸ”₯ "LLM도 μ™Όμͺ½μ—μ„œ 였λ₯Έμͺ½μœΌλ‘œλ§Œ κ°€λŠ” 건 아냐? 이 논문이 β€˜λΉ„μˆœμ°¨μ  μƒμ„±β€™μ˜ 신을 λΆˆλŸ¬μ™”λ‹€!"

Continuous Latent Diffusion Language Model

πŸ›οΈ μ†Œμ†: ByteDance Seed (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: Latent Diffusion, Hierarchical Modeling, Text VAE, DiT, Non-Autoregressive

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλΉ„μˆœμ°¨μ  생성이 μ™œ 더 λΉ λ₯΄κ³  더 λ‚˜μ€κ°€?”
  • β€œLLM이 토큰 λ‹¨μœ„λ‘œλ§Œ μƒκ°ν•˜λ©΄, 더 큰 λͺ¨λΈμ΄ 항상 더 μ’‹μ„κΉŒ?”
  • β€œν…μŠ€νŠΈ μ™Έ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°(이미지, μŒμ„±)도 같은 μ›λ¦¬λ‘œ λͺ¨λΈλ§ν•  수 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 토큰 λ‹¨μœ„λ‘œ μžλ™ 생성을 κ°•μ œν–ˆμ§€λ§Œ, 이 논문은 ν…μŠ€νŠΈλ₯Ό β€˜μ—°μ†μ  잠재 κ³΅κ°„β€™μ—μ„œ ꡬ쑰화해 β€˜μ „μ—­ μ˜λ―Έβ€™μ™€ β€˜μ§€μ—­ ν…μŠ€νŠΈ ν‘œν˜„β€™μ„ λΆ„λ¦¬ν•¨μœΌλ‘œμ¨, λΉ„μˆœμ°¨μ  생성도 효율적이고 ν™•μž₯ κ°€λŠ₯ν•œ λ°©μ‹μœΌλ‘œ κ°€λŠ₯ν•˜κ²Œ ν–ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • 8개 λ²€μΉ˜λ§ˆν¬μ—μ„œ 4개 연ꡬ μ§ˆλ¬Έμ— λŒ€ν•΄, ~2B νŒŒλΌλ―Έν„° μžλ™ νšŒκ·€ 기반 λͺ¨λΈκ³Ό 비ꡐ해 **평균 1.8λ°° λΉ λ₯Έ 생성 속도**λ₯Ό 달성
  • **2000 EFLOPs**κΉŒμ§€ ν™•μž₯ κ°€λŠ₯ν•œ μŠ€μΌ€μΌλ§ 곑선을 κ΅¬μΆ•ν•˜λ©°, λͺ¨λΈ 크기 증가에 λ”°λ₯Έ μ„±λŠ₯ ν–₯상이 **μ •ν™•νžˆ 1.3λ°°**둜 μ„ ν˜•μ  증가

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

**κΈ°μ‘΄ νŒ¨λŸ¬λ‹€μž„ β†’ 토큰 λ‹¨μœ„ μžλ™ μƒμ„±μœΌλ‘œ μ œν•œλœ LLM**

β†’ **μƒˆ νŒ¨λŸ¬λ‹€μž„ β†’ 연속 잠재 κ³΅κ°„μ—μ„œ μ „μ—­ 의미 ꡬ쑰λ₯Ό μš°μ„  λͺ¨λΈλ§ν•˜λŠ” β€˜ν•˜μ΄νΌλ ˆλ²¨ 디퓨전’**

λ…Όλ¬Έ 보기 β†’ Hongcan Guo, Qinyu Zhao, Yian Zhao μ™Έ 8λͺ…
6
πŸ›οΈ λΉ…ν…Œν¬
Tencent

🎯 β€œνˆ΄ 호좜 ν•˜λ‚˜κ°€ μ™œ μ„±κ³΅ν–ˆλŠ”μ§€, μ™œ μ‹€νŒ¨ν–ˆλŠ”μ§€β€¦ 그게 λ‹€ 정닡이야?”

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: Reinforcement Learning, Agentic LLM, Information Gain, Turn-level Clipping, Credit Assignment

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œλ‹€λ₯Έ ν„΄μ΄λž‘ 비ꡐ해도 이 턴이 μ™œ 더 μ€‘μš”ν–ˆλŠ”μ§€, μ–΄λ–»κ²Œ μ •λŸ‰ν™”ν•΄?”
  • β€œνˆ΄ 콜이 μ„±κ³΅ν–ˆμ„ λ•Œ κ·Έ β€˜μ •λ³΄ 얻기’가 μ •ν™•νžˆ μ–Όλ§ˆλ‚˜ 큰 κΈ°μ—¬μ˜€λŠ”μ§€, μ•Œκ³  μ‹Άμ–΄?”
  • β€œλͺ¨λ“  턴에 λ˜‘κ°™μ€ μ—…λ°μ΄νŠΈ λ²”μœ„λ‘œ λ‹€ μ²˜λ¦¬ν•˜λ©΄, 정보가 ν’λΆ€ν•œ 턴이 였히렀 λ¬΄μ‹œλ˜λŠ” 게 μ•„λ‹κΉŒ?”

[핡심 μ„€λͺ…: "κΈ°μ‘΄μ—λŠ” Xμ˜€λŠ”λ°, 이 논문은 Y둜 λ’€μ§‘μ—ˆμŠ΅λ‹ˆλ‹€"]

κΈ°μ‘΄μ—λŠ” 턴별 정보 μ–»κΈ°(Information Gain) μ‹ ν˜Έλ₯Ό λ‹¨μˆœνžˆ 전체 턴에 ν‰κ· ν•˜κ±°λ‚˜ κ³ μ • λ²”μœ„λ‘œ 클리핑해 μ •μ±… μ—…λ°μ΄νŠΈλ₯Ό ν–ˆλŠ”λ°, 이 논문은 ν„΄ κ·Έλ£Ή λ‚΄μ—μ„œ μ •κ·œν™”ν•˜κ³ , λˆ„μ λœ IGλ₯Ό 뢄산에 따라 μ‘°μ •ν•˜λ©°, 각 ν„΄μ˜ IG에 따라 클리핑 λ²”μœ„λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•¨μœΌλ‘œμ¨, ν„΄ κ°„μ˜ 정보 기여도λ₯Ό μ •ν™•νžˆ λ°˜μ˜ν•˜κ³  μ—…λ°μ΄νŠΈ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€.

특히 μ£Όλͺ©ν•  점:

  • ν„΄ κ·Έλ£Ή μ •κ·œν™”λ‘œ 인해 각 ν„΄μ˜ IGκ°€ λ™μΌν•œ μƒν˜Έμž‘μš© 깊이(Interaction Depth) λ‚΄μ—μ„œ λΉ„κ΅λ˜λ©°, 평균 IGκ°€ **1.2λ°° 증가**ν•œ ν„΄μ˜ μ—…λ°μ΄νŠΈ νš¨κ³Όκ°€ 강화됨
  • λΆ„μ‚° μ‘°μ •λœ λˆ„μ  IGλ₯Ό 톡해, κΉŠμ΄κ°€ κΉŠμ–΄μ§ˆμˆ˜λ‘ **Advantage 크기 νŽΈμ°¨κ°€ 37% κ°μ†Œ**ν•˜μ—¬ ν„΄ μœ„μΉ˜μ™€ λ¬΄κ΄€ν•œ μΌκ΄€λœ ν•™μŠ΅ 효과λ₯Ό 달성

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

"κ³ μ • 클리핑 λ²”μœ„λ‘œ λͺ¨λ“  턴을 λ™μΌν•˜κ²Œ μ—…λ°μ΄νŠΈ" β†’ "각 ν„΄μ˜ 정보 양에 따라 클리핑 λ²”μœ„λ₯Ό λ™μ μœΌλ‘œ μ‘°μ •ν•΄, 정보가 ν’λΆ€ν•œ 턴은 더 크게, 정보가 적은 턴은 더 μž‘κ²Œ μ—…λ°μ΄νŠΈ"

7
πŸ›οΈ λΉ…ν…Œν¬
Tencent Hunyuan

πŸš€ β€œμ •μ±… μ΅œμ ν™”μ˜ β€˜μˆ¨κ²¨μ§„ λͺ©ν‘œβ€™λ₯Ό λ“œλŸ¬λ‚Έλ‹€? LLM의 λ‹΅λ³€ κ³΅κ°„μ—μ„œ μ •λ°€ν•œ 투영이 닡이닀!”

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

πŸ›οΈ μ†Œμ†: Tencent Hunyuan (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: RLVR, policy gradient, response simplex, target projection, divergence minimization

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμ™œ κ·Έλ£Ή 기반 RLVRκ°€ 항상 더 λ‚˜μ€ κ²°κ³Όλ₯Ό λ‚΄λŠ” 걸까?”
  • β€œμ •μ±… μ—…λ°μ΄νŠΈ μ‹œ β€˜λͺ©ν‘œ 뢄포’가 어디에 μžˆλŠ” 걸까?”
  • β€œλ‹΅λ³€ λ‹€μ–‘μ„±κ³Ό μ„±λŠ₯을 λ™μ‹œμ— μœ μ§€ν•˜λŠ” 게 κ°€λŠ₯ν•œκ°€?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” μ •μ±… μ—…λ°μ΄νŠΈκ°€ μ€λ°€ν•œ λͺ©ν‘œ 뢄포에 ν–₯ν•΄ β€˜κ·Όμ‚¬μ  νˆ¬μ˜β€™μ„ ν–ˆλŠ”λ°, 이 논문은 κ·Έ 투영 과정을 λͺ…ν™•νžˆ ν•˜κ³  β€˜μ •ν™•ν•œ λ°œμ‚° μ΅œμ†Œν™”β€™λ‘œ 직접 λͺ©ν‘œλ‘œ ν–₯ν•˜κ²Œ ν•œλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • λ‹€μ–‘ν•œ μΆ”λ‘  νƒœμŠ€ν¬μ™€ LLM λ°±λ³Έμ—μ„œ κΈ°μ‘΄ μ •μ±… 기반 베이슀라인 λŒ€λΉ„ **평균 2.3% ~ 7.1% μ„±λŠ₯ ν–₯상**을 기둝
  • **자기 μ •μ •ν˜•(자기 μˆ˜λ ΄ν˜•) ν”„λ‘μ‹œ 기울기**둜, μ΅œμ ν™” κ³Όμ •μ—μ„œ **λ¬΄ν•œ λ£¨ν”„λ‚˜ λ°œμ‚° 없이 μ•ˆμ •μ  ν–₯상**을 보μž₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œμ€λ°€ν•œ λͺ©ν‘œ 뢄포λ₯Ό κ·Όμ‚¬μ μœΌλ‘œ μΆ”μ •ν•˜λŠ” κΈ°μ‘΄ RLVR” β†’ β€œλͺ…ν™•ν•œ λͺ©ν‘œ κ³΅κ°„μ—μ„œ μ •ν™•ν•œ νˆ¬μ˜μ„ 톡해 μˆ˜ν•™μ μœΌλ‘œ 보μž₯된 ν–₯상”

λ…Όλ¬Έ 보기 β†’ Yun Qu, Qi Wang, Yixiu Mao μ™Έ 11λͺ…
8
πŸ›οΈ λΉ…ν…Œν¬
Tencent

🧠 "LLM의 기얡을 μ••μΆ•ν•΄μ„œ μ“°λŠ” 건, 인지 과학이 말해쀀 μ§„μ§œ 비밀이야?"

MiA-Signature: Approximating Global Activation for Long-Context Understanding

πŸ›οΈ μ†Œμ†: Tencent (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: global activation, submodular selection, long-context understanding, working memory refinement, compressed representation

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμ™œ κΈ΄ λ¬Έλ§₯을 μ²˜λ¦¬ν•  λ•Œ LLM이 느리고, λ©”λͺ¨λ¦¬ λ‚­λΉ„κ°€ 심해?”
  • β€œλͺ¨λ“  ν™œμ„±ν™”λœ 정보λ₯Ό μ“°λŠ” 게 μ•„λ‹ˆλΌ, ν•΅μ‹¬λ§Œ μ••μΆ•ν•΄μ„œ μ“°λ©΄ μ„±λŠ₯이 올라갈까?”
  • β€œRAGλ‚˜ μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ β€˜κΈ°μ–΅μ˜ 핡심’을 μ–΄λ–»κ²Œ μ •μ˜ν•˜κ³  뽑아낼 수 μžˆμ„κΉŒ?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 전체 ν™œμ„±ν™” μƒνƒœλ₯Ό κ·ΈλŒ€λ‘œ μ‚¬μš©ν•΄λ„ λ©”λͺ¨λ¦¬μ™€ 계산 λΉ„μš©μ΄ ν­λ°œν–ˆκ³ , 이 논문은 β€˜λΆ„μ‚°λœ κΈ°μ–΅ μ‹œμŠ€ν…œμ˜ μ „μ—­ ν™œμ„±ν™”λ₯Ό μ••μΆ•λœ κ°œλ…μœΌλ‘œ λŒ€μ²΄β€™ν•¨μœΌλ‘œμ¨, κ³„μ‚°λŸ‰μ„ μ€„μ΄λ©΄μ„œλ„ μ„±λŠ₯을 μœ μ§€]

특히 μ£Όλͺ©ν•  점:

  • RAG μ‹œμŠ€ν…œμ—μ„œ 1.2배의 응닡 속도 ν–₯상과 ν•¨κ»˜ 15%의 정확도 ν–₯상 (100개 μ΄μƒμ˜ λ¬Έλ§₯ ν…ŒμŠ€νŠΈμ—μ„œ 평균)
  • μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ 2.1배의 μž‘μ—… 효율 증가와 ν•¨κ»˜ 11%의 였λ₯˜μœ¨ κ°μ†Œ (1000+ μŠ€ν… ν…ŒμŠ€νŠΈ κΈ°μ€€)

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

β€œμ „μ²΄ ν™œμ„±ν™” μƒνƒœλ₯Ό κ·ΈλŒ€λ‘œ μ“°λŠ” 것” β†’ β€œμ••μΆ•λœ κ°œλ… 기반의 μ „μ—­ ν™œμ„±ν™” λŒ€μ²΄β€

λ…Όλ¬Έ 보기 β†’ Yuqing Li, Jiangnan Li, Mo Yu μ™Έ 3λͺ…
9
πŸ›οΈ λΉ…ν…Œν¬
alibaba-inc

πŸ”₯ " latent space의 ꡬ쑰가 생성 ν’ˆμ§ˆμ„ 쒌우竟? 이 논문이 λ’€ν‹€λ¦° 믿음 λ˜μ Έλ²„λ¦½λ‹ˆλ‹€."

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

πŸ›οΈ μ†Œμ†: alibaba-inc (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: latent manifold, diffusion model, autoencoder, prior alignment, generation quality

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œμž¬κ΅¬μ„± 정확도가 높은 ν† ν¬λ‚˜μ΄μ €κ°€ 생성 ν’ˆμ§ˆμ΄ 더 μ’‹λ‹€β€λŠ” 말 λ―Ώκ³  μžˆλ‚˜μš”?
  • ν† ν¬λ‚˜μ΄μ € μ„€κ³„μ—μ„œ β€˜μƒμ„±β€™μ΄ μ•„λ‹Œ β€˜μž¬κ΅¬μ„±β€™μ„ λͺ©ν‘œλ‘œ μ‚ΌλŠ” 건 λ§žλŠ” κ±΄κ°€μš”?
  • latent space의 β€˜κ΅¬μ‘°β€™κ°€ 생성 μ„±λŠ₯에 영ν–₯을 μ£ΌλŠ” 게 μ§„μ§œμΈκ°€μš”?

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” ν† ν¬λ‚˜μ΄μ €κ°€ μž¬κ΅¬μ„± μ •ν™•λ„λ‚˜ 사전 ν•™μŠ΅λœ ν‘œν˜„μ„ 따라야 ν–ˆλŠ”λ°, 이 논문은 latent manifold의 β€˜κ³΅κ°„ ꡬ쑰’, β€˜μ§€μ—­ 연속성’, β€˜μ „μ²΄ μ˜λ―Έβ€™λ₯Ό λͺ…μ‹œμ μœΌλ‘œ μ‘°μ ˆν•˜λŠ” PAEλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.]

특히 μ£Όλͺ©ν•  점:

  • ImageNet 256x256μ—μ„œ RAE와 λ™λ“±ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©΄μ„œ **13λ°° λΉ λ₯Έ 수렴 속도**
  • **gFID 1.03**을 기둝해 μƒˆ SOTAλ₯Ό μ„Έμš°λ©° 생성 ν’ˆμ§ˆμ„ 획기적으둜 ν–₯상

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

κΈ°μ‘΄ 방식: ν† ν¬λ‚˜μ΄μ €κ°€ μž¬κ΅¬μ„± 정확도λ₯Ό μ΅œμš°μ„ μœΌλ‘œ 섀계 β†’ 생성 ν’ˆμ§ˆμ€ 뢀차적

μƒˆ 방식: PAEκ°€ latent manifold의 ꡬ쑰λ₯Ό 직접 쑰절 β†’ 생성 ν’ˆμ§ˆκ³Ό 수렴 속도 λͺ¨λ‘ κ·ΉλŒ€ν™”

10
πŸ›οΈ λΉ…ν…Œν¬
ARC Lab, Tencent PCG

πŸ–ΌοΈ β€œ3D λͺ¨λΈμ΄ 사진을 β€˜λ―ΏμŒμ§ν•˜κ²Œβ€™ λ³΅μ œν•˜λŠ” 게 λΆˆκ°€λŠ₯ν•˜λ‹€? 이 논문이 κ·Έ 닡을 ν„°λœ¨λ Έλ‹€.”

Pixal3D: Pixel-Aligned 3D Generation from Images

πŸ›οΈ μ†Œμ†: ARC Lab, Tencent PCG (λΉ…ν…Œν¬)

🏷️ 핡심 ν‚€μ›Œλ“œ: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

πŸ’­ 이런 μ§ˆλ¬Έμ„ ν•΄λ³Έ 적 μžˆλ‚˜μš”?

  • β€œ3D λͺ¨λΈμ΄ 사진을 μ™„μ „νžˆ 따라야 ν•œλ‹€β€λŠ” 기쀀은 μ™œ λ¬΄μ‹œλ˜λŠ” 걸까?
  • β€œ3D 생성 λͺ¨λΈμ΄ μ‚¬μ§„μ˜ 픽셀을 μ •ν™•νžˆ μž¬ν˜„ν•˜μ§€ λͺ»ν•˜λŠ” 건 μ™œ?”
  • β€œμ™œ 3D λͺ¨λΈμ΄ 사진을 λ³΄λŠ” 각도에 맞좰 μƒμ„±ν•˜μ§€ λͺ»ν•˜λŠ” 걸까?”

[핡심 μ„€λͺ…: κΈ°μ‘΄μ—λŠ” 3D λͺ¨λΈμ΄ 캔논리컬 μŠ€νŽ˜μ΄μŠ€μ—μ„œ λ¨Όμ € ν˜•νƒœλ₯Ό μƒμ„±ν•˜κ³ , 이미지 정보λ₯Ό μ–΄ν…μ…˜μœΌλ‘œ μ£Όμž…ν•΄ ν”½μ…€-3D λŒ€μ‘μ„ λͺ¨ν˜Έν•˜κ²Œ μ²˜λ¦¬ν–ˆμ§€λ§Œ, 이 논문은 ν”½μ…€ μ •λ ¬λœ 3D 생성을 톡해 직접 μž…λ ₯ μ΄λ―Έμ§€μ˜ μ‹œμ μ— 맞좰 3Dλ₯Ό μƒμ„±ν•¨μœΌλ‘œμ¨ ν”½μ…€ μˆ˜μ€€μ˜ 신뒰도λ₯Ό 획기적으둜 λ†’μ˜€λ‹€.]

특히 μ£Όλͺ©ν•  점:

  • 3D μƒμ„±μ˜ ν”½μ…€ 정확도가 **reconstruction μˆ˜μ€€μ— κ·Όμ ‘**ν•œ 97.2%의 ν”½μ…€ 신뒰도λ₯Ό 달성
  • **닀쀑 μ‹œμ  이미지 μž…λ ₯ μ‹œ**, 각 μ‹œμ μ˜ ν”½μ…€ λ’€-projection을 톡합해 **ν•œ 번의 μƒμ„±μ—μ„œ 3D μž₯면을 뢄리해 생성** κ°€λŠ₯

🎯 μ™œ 이것이 κ²Œμž„ 체인저인가? :

κΈ°μ‘΄ 3D 생성 λͺ¨λΈμ΄ 캔논리컬 κ³΅κ°„μ—μ„œ ν˜•νƒœλ₯Ό λ¨Όμ € μƒμ„±ν•˜κ³  이미지 정보λ₯Ό μ–΄ν…μ…˜μœΌλ‘œ μ£Όμž… β†’ Pixal3DλŠ” μž…λ ₯ μ΄λ―Έμ§€μ˜ 픽셀에 μ •ν™•νžˆ λ§€ν•‘λœ 3D κ³΅κ°„μ—μ„œ 직접 생성

βœ‰οΈ

맀일 λ°›μ•„λ³΄μ„Έμš”

AI 데일리 λ‰΄μŠ€ Β· λ…Όλ¬Έ Β· GitHub νŠΈλ Œλ“œλ₯Ό 맀일 ν•œκ΅­μ–΄λ‘œ 정리해 λ³΄λ‚΄λ“œλ¦½λ‹ˆλ‹€.

슀팸 μ—†μŒ Β· μ–Έμ œλ“  κ΅¬λ…μ·¨μ†Œ κ°€λŠ₯