๐Ÿ“„ PaperBytes

Weekly AI Papers โ€” 2026-05-17

๐Ÿ“„ 10ํŽธ ๐Ÿ›๏ธ ๋น…ํ…Œํฌ 10ํŽธ
1
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
NVIDIA

๐Ÿง  โ€œ์˜์ƒ ์—†์œผ๋ฉด AI๋Š” 2%๋„ ๋ชป ๋งž์ถ˜๋‹ค? ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ์–ต์˜ ์ง„์งœ ํ…Œ์ŠคํŠธ๋Š” ์ด๊ฑฐ์•ผ.โ€

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

๐Ÿ›๏ธ ์†Œ์†: NVIDIA (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: multimodal memory, long-context LVLM, memory-augmented agents, cross-modal reasoning, benchmarking

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ์ด์ „ ๋Œ€ํ™”์—์„œ ๋งํ•œ ๊ทธ ์ด๋ฏธ์ง€, ์ง€๊ธˆ ๋‹ค์‹œ ๋ณด์—ฌ์ค˜์•ผ ํ•˜๋Š”๋ฐโ€ฆ ์™œ ๋ชป ์ฐพ์ง€?โ€
  • โ€œ๋Œ€ํ™”๊ฐ€ ๊ธธ์–ด์ง€๋ฉด AI๊ฐ€ ๊ธฐ์–ต์„ ๋ชป ํ•˜๋‹ˆ๊นŒ ๋‹ต์ด ํ‹€๋ฆฌ๋Š” ๊ฑฐ์•ผ?โ€
  • โ€œ์‚ฌ์ง„์ด ์—†์œผ๋ฉด AI๊ฐ€ ์งˆ๋ฌธ์— ๋‹ตํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ๋‹จ์ˆœํžˆ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” LVLM๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์ฆ๊ฐ• ์—์ด์ „ํŠธ๋ฅผ ๋ณ„๊ฐœ๋กœ ํ‰๊ฐ€ํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ ๋‘ ๋ฐฉ์‹์„ ํ•˜๋‚˜์˜ โ€˜๋ฉ€ํ‹ฐ์„ธ์…˜ ๋Œ€ํ™”โ€™ ํ…Œ์ŠคํŠธ์—์„œ ๋น„๊ตํ•ด โ€˜์‹ค์ œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐโ€™๊ฐ€ ํ•„์š”ํ•œ ๋ฌธ์ œ์— ์–ด๋–ค ๋ฐฉ์‹์ด ๋” ๋‚˜์€์ง€ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฐํ˜”๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 789๊ฐœ์˜ ์งˆ๋ฌธ ์ค‘ 80.4%๊ฐ€ ์ด๋ฏธ์ง€ ์ฆ๊ฑฐ๋ฅผ ์š”๊ตฌํ•˜๋Š”๋ฐ, ์ด๋ฏธ์ง€๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด ์ตœ๊ณ  ์ˆ˜์ค€ LVLM์ด ์ •๋‹ต๋ฅ  2%๋กœ ๋–จ์–ด์ง
  • 27๊ฐœ์˜ LVLM๊ณผ 7๊ฐœ์˜ ๋ฉ”๋ชจ๋ฆฌ ์ฆ๊ฐ• ์—์ด์ „ํŠธ ์ค‘, ๋ฉ€ํ‹ฐ์„ธ์…˜ ์ถ”๋ก  ์„ฑ๋Šฅ์€ ๋Œ€๋ถ€๋ถ„ 30% ์ดํ•˜๋กœ ์ œํ•œ๋จ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

๋‹จ์ˆœํžˆ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ โ†’ ๋ฉ€ํ‹ฐ์„ธ์…˜ ๋Œ€ํ™”์—์„œ ์ด๋ฏธ์ง€ ์ฆ๊ฑฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์žฅ๊ธฐ ๊ธฐ์–ต์„ ๊ตฌ์กฐํ™”ํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์•„ํ‚คํ…์ฒ˜

2
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
NVIDIA

๐ŸŽฌ โ€œ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ โ€˜๋ช‡ ๋‹จ๊ณ„โ€™๋งŒ์œผ๋กœ๋„ ์™„์„ฑ๋„๋ฅผ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ•˜๋‹ค? ๊ทธ๋Ÿผ โ€˜๋ฌดํ•œ ๋‹จ๊ณ„โ€™๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

๐Ÿ›๏ธ ์†Œ์†: NVIDIA (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: video diffusion, flow map distillation, on-policy learning, any-step generation, ODE sampling

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ๋ช‡ ๋‹จ๊ณ„๋งŒ์œผ๋กœ ๋๋‚ด๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์€ ํ›จ์”ฌ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์ด์ง€ ์•Š๋‚˜?โ€
  • โ€œ๋‹จ๊ณ„ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒŒ ์ •์ƒ์ธ๊ฐ€? ์•„๋‹ˆ๋ฉด, ๊ทธ๊ฒŒ โ€˜๋ฌด์กฐ๊ฑดโ€™์ด์–ด์•ผ ํ• ๊นŒ?โ€
  • โ€œ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ โ€˜๋‹จ๊ณ„ ์ˆ˜โ€™๋ฅผ ๊ณ ์ •ํ•˜์ง€ ์•Š๊ณ  ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ ˆํ•˜๋Š” ๊ฑด, ๊ธฐ์กด ๋ชจ๋ธ์ด ๋ฌด๋„ˆ์งˆ ์ •๋„๋กœ ์–ด๋ ต๋‚˜?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ์ผ์ • ๋‹จ๊ณ„ ์ˆ˜์—๋งŒ ์ตœ์ ํ™”๋œ ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜์˜ ๋น„๋””์˜ค ์ƒ์„ฑ์ด์—ˆ๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์€ ODE ์ƒ˜ํ”Œ๋ง ์ „์ฒด ๊ฒฝ๋กœ๋ฅผ ํ•™์Šตํ•˜๋Š” โ€˜ํ”Œ๋กœ์šฐ ๋งต ๊ธฐ๋ฐ˜โ€™ ๋””์Šคํ‹ธ๋ ˆ์ด์…˜์œผ๋กœ, ๋‹จ๊ณ„ ์ˆ˜์— ์ƒ๊ด€์—†์ด ์œ ์—ฐํ•˜๊ฒŒ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 1.3B ~ 14B ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์—์„œ, 1~30๋‹จ๊ณ„๊นŒ์ง€์˜ ์ƒ˜ํ”Œ๋ง์— ๋Œ€ํ•ด ๊ธฐ์กด ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค **์ตœ๋Œ€ 1.2๋ฐฐ ๋” ๋†’์€ FID ์ ์ˆ˜**๋ฅผ ๋‹ฌ์„ฑ
  • **10๋‹จ๊ณ„ ์ƒ˜ํ”Œ๋ง ์‹œ 3.5๋ฐฐ ๋” ๋‚ฎ์€ ๋””์Šคํฌ๋ฆฌํ‹ฐ์ œ์ด์…˜ ์˜ค๋ฅ˜**๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ํ…Œ์ŠคํŠธ ์‹œ ๋‹จ๊ณ„ ์ˆ˜ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ํ•˜๋ฝ์„ ๊ทน๋ณต

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

โ€œ๋‹จ๊ณ„ ์ˆ˜์— ๊ณ ์ •๋œ ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜ ๋””์Šคํ‹ธ๋ ˆ์ด์…˜โ€ โ†’ โ€œํ”Œ๋กœ์šฐ ๋งต์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ „์ฒด ODE ๊ฒฝ๋กœ๋ฅผ ํ•™์Šตํ•˜๋Š” ์œ ์—ฐํ•œ ๋””์Šคํ‹ธ๋ ˆ์ด์…˜โ€

3
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
Google

๐ŸŽฏ "3D ์ถ”์ ์€ ์ด์ œ โ€˜ํ”„๋ ˆ์ž„ ๋‹จ์œ„ ์ƒ์„ฑโ€™์—์„œ โ€˜์‹œ๊ฐ„์— ๊ฑธ์นœ ํฌ์ธํŠธ ์ถ”์ โ€™์œผ๋กœ ์ง„ํ™”ํ•œ๋‹ค?"

TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

๐Ÿ›๏ธ ์†Œ์†: Google (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: video diffusion, 3D tracking, dense point tracking, temporal alignment, LoRA fine-tuning

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ3D ์ถ”์  ๋ชจ๋ธ์ด ํ”„๋ ˆ์ž„๋งˆ๋‹ค ์ƒˆ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ฒŒ ๋งž๋Š” ๊ฑธ๊นŒ?โ€
  • โ€œ์‹ค์ œ ์˜์ƒ์—์„œ์˜ ์›€์ง์ž„์„ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด 3D ์ถ”์ ์— ๋” ์ข‹์„๊นŒ?โ€
  • โ€œ๊ธฐ์กด 3D ๋ชจ๋ธ์€ ์™œ ์›€์ง์ž„์„ ์ž˜ ๋ชป ์žก๋Š” ๊ฑธ๊นŒ?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ํ”„๋ ˆ์ž„ ๋‹จ์œ„๋กœ ์ƒ์„ฑํ•˜๋Š” ๋น„๋””์˜ค ๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ 3D ์ถ”์ ์— ์“ฐ๋ ค๊ณ  ํ–ˆ๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์€ โ€˜์‹œ๊ฐ„์— ๊ฑธ์นœ ๋™์ผ ํฌ์ธํŠธ ์ถ”์ โ€™์ด๋ผ๋Š” ๋ณธ์งˆ์„ ๋งž์ถฐ์„œ, ๋‹จ์ผ ์ „๋ฐฉ ์ „๋‹ฌ๋กœ ์ „์ฒด ์˜์ƒ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๋กœ ๋’ค์ง‘์—ˆ์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • **์Šคํƒ ๋‹ค๋“œ ์ŠคํŒŒ์Šค ๋ฐ ๋””์„ผ์Šค 3D ์ถ”์  ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ์„ฑ๊ณผ ๋‹ฌ์„ฑ**
  • **๊ฐ•๋ ฅํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค 1.3๋ฐฐ ๋น ๋ฅด๊ณ , ํ”ผํฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์€ 4.6๋ฐฐ ์ ์Œ**

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

**๊ธฐ์กด ํ”„๋ ˆ์ž„ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ชจ๋ธ โ†’ ์‹œ๊ฐ„ ๊ธฐ๋ฐ˜ ํฌ์ธํŠธ ์ถ”์  ๋ชจ๋ธ**

(์ฆ‰, ๊ฐ ํ”„๋ ˆ์ž„๋งˆ๋‹ค ์ƒˆ๋กญ๊ฒŒ ์ƒ์„ฑํ•˜๋˜ ๋ฐฉ์‹ โ†’ ํ•œ ๋ฒˆ์˜ ์ „๋ฐฉ ์ „๋‹ฌ๋กœ ๋ชจ๋“  ํ”„๋ ˆ์ž„์—์„œ ๋™์ผ ํฌ์ธํŠธ๋ฅผ ์ถ”์ ํ•˜๋Š” ๋ฐฉ์‹)

4
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
ByteDance Seed

๐Ÿ”ฅ "128K๋Š” ํ•œ๊ณ„๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. 512K๊นŒ์ง€ ์ž˜ ์“ฐ๋Š” LVLM์ด ๋‚˜์™”์Šต๋‹ˆ๋‹ค!"

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

๐Ÿ›๏ธ ์†Œ์†: ByteDance Seed (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: long-context, vision-language model, continued pre-training, data mixture, generalization

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ128K ๋งฅ๋ฝ์ด ์ตœ๋Œ€ ํ•œ๊ณ„์ธ๊ฐ€์š”?โ€
  • โ€œ๊ธด ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, OCR๋ณด๋‹ค VQA๊ฐ€ ๋” ๋‚˜์€ ์ด์œ ๋Š” ๋ญ์ฃ ?โ€
  • โ€œ๊ธด ๋งฅ๋ฝ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ, ์งง์€ ๋ฐ์ดํ„ฐ๋Š” ํ•„์š” ์—†๋‚˜์š”?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ๊ธด ๋งฅ๋ฝ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ ๊ธด ๋ฌธ์„œ ๋ฐ์ดํ„ฐ๋งŒ ์จ์•ผ ํ–ˆ๊ณ , ์งง์€ ๋ฐ์ดํ„ฐ๋Š” ๋ณ„๋กœ ํ•„์š” ์—†์—ˆ๋‹ค๊ณ  ์—ฌ๊ฒจ์กŒ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ธด ๋งฅ๋ฝ ๋Šฅ๋ ฅ์ด ๋‹ค์–‘ํ•œ ๊ธธ์ด์™€ ์œ„์น˜์—์„œ์˜ ์ •๋ณด ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํžˆ๋ฉฐ, ์งง์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์—†์ด๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 128K ๋งฅ๋ฝ ํ›ˆ๋ จ ๋ชจ๋ธ์ด 256K, 512K ๋งฅ๋ฝ์—์„œ๋„ ์„ฑ๋Šฅ ์œ ์ง€ํ•˜๋ฉฐ, **128K ํ›ˆ๋ จ ๋ฒ”์œ„๋ฅผ ๋„˜์–ด์„  512K๊นŒ์ง€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์œ ์ง€**
  • **128K ๋งฅ๋ฝ์—์„œ ๊ธด ๋ฌธ์„œ VQA ์ ์ˆ˜ 7.1% ํ–ฅ์ƒ** ๋‹ฌ์„ฑ, ์งง์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์—†์ด๋„ ์„ฑ๋Šฅ ์œ ์ง€

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

โ€œ๊ธด ๋งฅ๋ฝ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•  ๋•Œ, ๊ธด ๋ฌธ์„œ ๋ฐ์ดํ„ฐ๋งŒ ์จ์•ผ ํ•œ๋‹คโ€ โ†’ โ€œ์งง์€ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์—†์ด๋„ 512K๊นŒ์ง€ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•˜๊ณ , 7.1% ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑโ€

๋…ผ๋ฌธ ๋ณด๊ธฐ โ†’ Zhaowei Wang, Lishu Luo, Haodong Duan ์™ธ 9๋ช…
5
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
Microsoft Research

๐ŸŽฏ โ€œLLM์ด ์Šค์Šค๋กœ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์™œ ์šฐ๋ฆฌ๊ฐ€ ์ฝ”๋“œ๋ฅผ ์จ์•ผ ํ•ด?โ€

Orchard: An Open-Source Agentic Modeling Framework

๐Ÿ›๏ธ ์†Œ์†: Microsoft Research (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: agentic modeling, open-source framework, scalable training, sandbox environment, RLHF

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋กœ๋„ AGENT๊ฐ€ ์ž˜ ๋˜๋Š” ๊ฑฐ์•ผ?โ€
  • โ€œ๋‚ด๊ฐ€ ์“ฐ๋Š” ์ฝ”๋“œ๊ฐ€ ์•„๋‹ˆ๋ผ, AGENT๊ฐ€ ์Šค์Šค๋กœ ์ฝ”๋”ฉํ•˜๋Š” ๊ฑธ๋กœ๋„ ์„ฑ๊ณตํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€
  • โ€œ๋น„๋ฐ€๋ฒˆํ˜ธ๋„ ์•ˆ ๋ฌป๊ณ , ํ”„๋ผ์ด๋น— ๋ฐ์ดํ„ฐ๋„ ์•ˆ ์จ๋„ AGENT๊ฐ€ ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ•œ๊ฐ€?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ์˜คํ”ˆ์†Œ์Šค AGENT๋Š” ์ฃผ๋กœ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜์ด๋‚˜ ํ‰๊ฐ€์— ์ง‘์ค‘ํ–ˆ๊ณ , ์‹ค์ œ ์Šค์ผ€์ผ๋ง๋œ ํ›ˆ๋ จ์€ ๋น„๊ณต๊ฐœ ์ฝ”๋“œ๋‚˜ ํ”„๋ฆฌ๋ฏธ์—„ ์„œ๋น„์Šค์— ์˜์กดํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ ์˜คํ”ˆ์†Œ์Šค ํ™˜๊ฒฝ ๋ ˆ์ด์–ด ํ•˜๋‚˜๋กœ ๋‹ค์–‘ํ•œ AGENT ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์„ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • **Orchard-SWE**: Qwen3-30B-A3B-Thinking ๊ธฐ๋ฐ˜์œผ๋กœ SFT ํ›„ 64.3%, SFT+RL ํ›„ 67.5% ์„ฑ๊ณผ ๋‹ฌ์„ฑ โ€” ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ ์ค‘ ์ตœ๊ณ  ์„ฑ๋Šฅ ๊ธฐ๋ก.
  • **Orchard-GUI**: 0.4K ํŠธ๋ ˆ์ด์ ํ† ๋ฆฌ + 2.2K ์˜คํ”ˆ์—”๋“œ ํƒœ์Šคํฌ๋กœ 74.1% (WebVoyager), 67.0% (Online-Mind2Web), 64.0% (DeepShop) ์„ฑ๊ณต๋ฅ  ๋‹ฌ์„ฑ โ€” ํ”„๋ฆฌ๋ฏธ์—„ ์‹œ์Šคํ…œ๊ณผ ๊ฒฝ์Ÿ ์ˆ˜์ค€.

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

**โ€œ๋น„๊ณต๊ฐœ ์ฝ”๋“œ + ํ”„๋ฆฌ๋ฏธ์—„ ์„œ๋น„์Šค ์˜์กด โ†’ ์˜คํ”ˆ์†Œ์Šค ํ™˜๊ฒฝ + ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ›ˆ๋ จ ๋ ˆ์‹œํ”ผโ€**

6
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
Microsoft

๐Ÿš€ โ€œ์‚ฌ์šฉ์ž ํ–‰๋™ ๊ณต๊ฐ„์„ ์™„์ „ํžˆ ๋ฎ๋Š” ๊ฑด, AI๊ฐ€ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ฐฝ์˜์ ์œผ๋กœ ์ž‘์—…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ์—ด์‡ ๋‹ค!โ€

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

๐Ÿ›๏ธ ์†Œ์†: Microsoft (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: computer-use agent, GUI interaction, multimodal benchmark, data synthesis, action space coverage

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œํด๋ฆญ๋งŒ์œผ๋กœ๋Š” ์–ด๋–ค ์ž‘์—…๋„ ๋ชปํ•˜๋‚˜์š”?โ€
  • โ€œAI๊ฐ€ ๋ณต์žกํ•œ ํ™”๋ฉด ์ž‘์—…์„ ์™œ ์‹คํŒจํ•˜๋Š” ๊ฑธ๊นŒ์š”?โ€
  • โ€œ์‚ฌ์šฉ์ž ํ–‰๋™์˜ โ€˜๊ผฌ๋ฆฌโ€™ ๋ถ€๋ถ„์ด ์™œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ๊ฐ€์š”?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” GUI ํด๋ฆญ ์ค‘์‹ฌ์˜ ํ‰๊ฐ€๋งŒ์œผ๋กœ ๋ณต์žกํ•œ ์ž‘์—…์„ ํŒ๋‹จํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ GUI, ํ…์ŠคํŠธ, ํ‘œ, ์บ”๋ฒ„์Šค, ์ž์—ฐ ์ด๋ฏธ์ง€ ๋“ฑ 5๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ๋‹ค์–‘ํ•œ ์•ก์…˜(ํด๋ฆญ, ๋“œ๋ž˜๊ทธ, ๊ทธ๋ฆฌ๊ธฐ ๋“ฑ)์„ ํฌํ•จํ•œ โ€˜์ „์ฒด ํ–‰๋™ ๊ณต๊ฐ„โ€™์„ ์ปค๋ฒ„ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ CUActSpot์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • Phi-Ground-Any-4B ๋ชจ๋ธ์ด 32B ํŒŒ๋ผ๋ฏธํ„ฐ ์ดํ•˜์˜ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ ์šฐ์œ„๋ฅผ ๋ณด์ž„ (์ˆ˜์น˜ ๊ธฐ๋ฐ˜ ๋น„๊ต ํฌํ•จ)
  • 5๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(ํ™”๋ฉด, ํ…์ŠคํŠธ, ํ‘œ, ์บ”๋ฒ„์Šค, ์ด๋ฏธ์ง€)์™€ ๋‹ค์–‘ํ•œ ์•ก์…˜(ํด๋ฆญ, ๋“œ๋ž˜๊ทธ, ๊ทธ๋ฆฌ๊ธฐ ๋“ฑ)์„ ์ปค๋ฒ„ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ CUActSpot์„ ์ฒ˜์Œ์œผ๋กœ ์ œ์•ˆ (๊ธฐ์กด ํด๋ฆญ ์ค‘์‹ฌ ๋ฒค์น˜๋งˆํฌ์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„  ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ปค๋ฒ„)

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

๊ธฐ์กด ํด๋ฆญ ์ค‘์‹ฌ ํ‰๊ฐ€ โ†’ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ + ๋ณต์žกํ•œ ์•ก์…˜(๋“œ๋ž˜๊ทธ, ๊ทธ๋ฆฌ๊ธฐ ๋“ฑ)์„ ํฌํ•จํ•œ ์ „์ฒด ํ–‰๋™ ๊ณต๊ฐ„ ์ปค๋ฒ„ ๋ฒค์น˜๋งˆํฌ

7
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
ARC Lab, Tencent PCG

๐Ÿ–ผ๏ธ โ€œ3D ๋ชจ๋ธ์ด โ€˜์‚ฌ์ง„์— ๋งž์ถฐโ€™ ์ƒ๊ธฐ๋ฉด, ์™œ ๊ทธ๊ฑธ โ€˜์ •ํ™•ํ•œ ๋ณต์ œโ€™๋ผ๊ณ  ๋ถ€๋ฅด์ง€ ์•Š๋‚˜์š”?โ€

Pixal3D: Pixel-Aligned 3D Generation from Images

๐Ÿ›๏ธ ์†Œ์†: ARC Lab, Tencent PCG (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: pixel-aligned, 3D generation, image-to-3D, back-projection, multi-view synthesis

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ3D ๋ชจ๋ธ์ด ์‚ฌ์ง„์„ โ€˜์ž˜ ์žฌํ˜„โ€™ํ•œ๋‹ค๊ณ  ํ•ด๋„, ํ”ฝ์…€ ๋‹จ์œ„๋กœ ์ •ํ™•ํ•œ๊ฐ€?โ€
  • โ€œ์™œ 3D ์ƒ์„ฑ ๋ชจ๋ธ์€ 2D ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€๊ณผ 3D ๊ณต๊ฐ„์ด โ€˜๋งคํ•‘โ€™๋˜์ง€ ์•Š๋Š” ๊ฑธ๊นŒ?โ€
  • โ€œ๋‹จ์ผ ์ด๋ฏธ์ง€๋กœ 3D ์žฅ๋ฉด์„ ์ƒ์„ฑํ•  ๋•Œ, ๊ฐ์ฒด๊ฐ€ ๊ฒน์ณ๋„ ๊ตฌ๋ถ„์ด ์•ˆ ๋˜๋Š” ์ด์œ ๋Š”?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” 3D ๋ชจ๋ธ์„ ์บ๋‚˜๋””์–ธ ํฌ์ฆˆ์—์„œ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ์–ดํ…์…˜์œผ๋กœ ์ฃผ์ž…ํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ ํ”ฝ์…€ ์ •๋ ฌ๋œ 3D ์ƒ์„ฑ ๋ฐฉ์‹์œผ๋กœ, ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ๊ฐ ํ”ฝ์…€์ด ๋ช…ํ™•ํ•˜๊ฒŒ 3D ๊ณต๊ฐ„์— ๋งคํ•‘๋˜๋„๋ก ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 3D ์ƒ์„ฑ์˜ โ€˜ํ”ฝ์…€ ์ •ํ™•๋„โ€™๋ฅผ 27% ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ๋ณต์› ์ˆ˜์ค€์˜ ์ •ํ™•๋„(โ‰ˆ reconstruction fidelity)์— ๋„๋‹ฌ
  • ๋‹จ์ผ ์ด๋ฏธ์ง€๋กœ 3D ์žฅ๋ฉด ์ƒ์„ฑ ์‹œ, ๊ฐ์ฒด ๋ถ„๋ฆฌ ์ •ํ™•๋„๊ฐ€ 94%๋กœ ๋†’์•„์ ธ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ 32% ๊ฐœ์„ 

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

๊ธฐ์กด 3D ์ƒ์„ฑ ๋ชจ๋ธ์ด โ€˜์บ๋‚˜๋””์–ธ ํฌ์ฆˆ์—์„œ ์ƒ์„ฑ โ†’ ์ด๋ฏธ์ง€ ์ •๋ณด ์–ดํ…์…˜ ์ฃผ์ž…โ€™ โ†’ ํ”ฝ์…€-3D ๋งคํ•‘ ๋ถˆ๋ช…ํ™•

โ†’ Pixal3D๊ฐ€ โ€˜ํ”ฝ์…€ ์ •๋ ฌ๋œ 3D ๊ณต๊ฐ„ ์ƒ์„ฑ โ†’ ๋ฐฑํ”„๋กœ์ ์…˜ ์กฐ๊ฑด๋ถ€ ํŠน์ง• ๋งตํ•‘โ€™ โ†’ ํ”ฝ์…€ ๋‹จ์œ„ ์ •ํ™•ํ•œ 3D ์žฌํ˜„ ๊ฐ€๋Šฅ

8
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
NVIDIA

๐ŸŽฌ "ํ•œ ๋ฒˆ์˜ ํ›ˆ๋ จ์œผ๋กœ 1๋ถ„ ์˜์ƒ๊นŒ์ง€? ์ด๊ฑด AI ์›”๋“œ ๋ชจ๋ธ๋ง์˜ ์ƒˆ ์‹œ๋Œ€๋‹ค"

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

๐Ÿ›๏ธ ์†Œ์†: NVIDIA (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: world modeling, diffusion transformer, hybrid linear attention, camera control, video generation

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ1๋ถ„์งœ๋ฆฌ ์˜์ƒ๊นŒ์ง€ ํ•™์Šต์‹œํ‚ค๋Š” ๋ชจ๋ธ์ด ์žˆ๋‚˜์š”?โ€
  • โ€œ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋ณด๋‹ค ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ ์›”๋“œ ๋ชจ๋ธ๋ง์„ ํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€
  • โ€œ์‹ค์ œ ์นด๋ฉ”๋ผ ์›€์ง์ž„์„ ์ •ํ™•ํžˆ ๋”ฐ๋ผ๊ฐˆ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์€ ์ง„์งœ๋กœ ์กด์žฌํ•˜๋‚˜์š”?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด 1๋ถ„ ์˜์ƒ ์ƒ์„ฑ์— ์ˆ˜์ผ~์ฃผ๊ฐ„ ํ›ˆ๋ จ๊ณผ ์ˆ˜์‹ญ ๊ฐœ์˜ GPU๊ฐ€ ํ•„์š”ํ–ˆ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์€ 2.6B ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ 64๊ฐœ H100 GPU์—์„œ 15์ผ๋งŒ์— ํ›ˆ๋ จ ์™„๋ฃŒํ•˜๋ฉฐ, ๋‹จ์ผ GPU๋กœ 60์ดˆ ์˜์ƒ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋’ค์ง‘์—ˆ์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 15์ผ ๋™์•ˆ 64๊ฐœ H100 GPU๋กœ ํ›ˆ๋ จ ์™„๋ฃŒ, 1๋ถ„ ์˜์ƒ ์ƒ์„ฑ์€ ๋‹จ์ผ GPU๋กœ ๊ฐ€๋Šฅ (๋น„๊ต ๋Œ€์ƒ: ๊ธฐ์กด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ์ˆ˜์‹ญ ๊ฐœ GPU ํ•„์š”)
  • 60์ดˆ 720p ์˜์ƒ ์ƒ์„ฑ์— 34์ดˆ ์†Œ์š” (NVFP4 ์–‘์žํ™” + RTX 5090 ๊ธฐ๋ฐ˜, 36๋ฐฐ ๋†’์€ throughput ๋‹ฌ์„ฑ)

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

๊ธฐ์กด ๋ฐฉ์‹: ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด 1๋ถ„ ์˜์ƒ ์ƒ์„ฑ์— ์ˆ˜์ผ ํ›ˆ๋ จ + ์ˆ˜์‹ญ ๊ฐœ GPU ํ•„์š” โ†’ ์ƒˆ ๋ฐฉ์‹: 2.6B ํŒŒ๋ผ๋ฏธํ„ฐ + 15์ผ ํ›ˆ๋ จ + ๋‹จ์ผ GPU๋กœ 1๋ถ„ ์˜์ƒ ์ƒ์„ฑ ๊ฐ€๋Šฅ

๋…ผ๋ฌธ ๋ณด๊ธฐ โ†’ Haoyi Zhu, Haozhe Liu, Yuyang Zhao ์™ธ 6๋ช…
9
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
IBM Research

๐Ÿค– โ€œLLM์ด ๋„๊ตฌ๋ฅผ ์“ฐ๋Š” ๊ฑด ์‰ฌ์›Œโ€ฆ ๊ทธ๋Ÿฐ๋ฐ ํ™˜๊ฒฝ์„ โ€˜์˜ˆ์ธกโ€™ํ•˜๋Š” ๊ฑด ์™œ ์ด๋ ‡๊ฒŒ ์–ด๋ ค์šด ๊ฑธ๊นŒ?โ€

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

๐Ÿ›๏ธ ์†Œ์†: IBM Research (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: World Model, MCP, Agent, Task Planning, Execution Quality

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ๋„๊ตฌ๋ฅผ ์ž˜ ์“ฐ๋Š” LLM์ด ์™œ ์‹คํŒจํ•˜๋Š” ๊ฑธ๊นŒ?โ€
  • โ€œ๊ณ„ํš๋งŒ ์„ธ์šฐ๊ณ  ์‹คํ–‰ ์•ˆ ํ•  ๋•Œ, ๊ทธ โ€˜๊ณ„ํšโ€™์ด ์™œ ํ‹€๋ฆฌ๋Š” ๊ฑธ๊นŒ?โ€
  • โ€œํ™˜๊ฒฝ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒŒ ์™œ ์ด๋ ‡๊ฒŒ ์–ด๋ ค์šด๋ฐ, ๊ทธ๊ฒŒ ์™œ ์ค‘์š”ํ•œ ๊ฑธ๊นŒ?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: "๊ธฐ์กด์—๋Š” X์˜€๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์€ Y๋กœ ๋’ค์ง‘์—ˆ์Šต๋‹ˆ๋‹ค" ๊ตฌ์กฐ]

๊ธฐ์กด์—๋Š” LLM์ด ๋„๊ตฌ๋ฅผ ์“ฐ๋Š” โ€˜์‹คํ–‰ ๋‹จ๊ณ„โ€™์™€ โ€˜๊ณ„ํš ๋‹จ๊ณ„โ€™๋ฅผ ๋ถ„๋ฆฌํ•ด ์ฒ˜๋ฆฌํ–ˆ๊ณ , ํ™˜๊ฒฝ์˜ ๋ณ€ํ™”๋ฅผ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•ด ์„ฑ๊ณต๋ฅ ์ด ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ World Model์„ MCP์— ํ†ตํ•ฉํ•ด, ์‹คํ–‰ ์ „์— โ€˜์ƒํƒœ ์ „์ด๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜โ€™ํ•˜๊ณ  โ€˜๊ณ„ํš์„ ๋ ˆ์ดํ„ดํŠธ ๊ณต๊ฐ„์—์„œ ์กฐ์ •โ€™ํ•จ์œผ๋กœ์จ, LLM์ด ํ™˜๊ฒฝ์„ ์˜ˆ์ธกํ•˜๊ณ  ์‹คํ–‰์„ ์ตœ์ ํ™”ํ•˜๋Š” โ€˜์˜ˆ์ธกํ˜• ์ž๋™ํ™”โ€™๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • 20๊ฐœ ์ด์ƒ์˜ MCP-Bench ํƒœ์Šคํฌ์—์„œ ๋„๊ตฌ ์„ฑ๊ณต๋ฅ ์ด ํ‰๊ท  12.3% ์ƒ์Šน, ์ตœ๋Œ€ 28.7% ํ–ฅ์ƒ
  • ๋„๊ตฌ ํŒŒ๋ผ๋ฏธํ„ฐ ์ •ํ™•๋„๊ฐ€ ํ‰๊ท  15.6% ๊ฐœ์„ , ํŠน์ • ํƒœ์Šคํฌ์—์„œ 37.2% ํ–ฅ์ƒ

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

โ€œ๊ณ„ํš ๋‹จ๊ณ„์—์„œ ํ™˜๊ฒฝ์„ ๋ฌด์‹œํ•˜๋Š” ๋ฐ˜์‘ํ˜• ์‹คํ–‰โ€ โ†’ โ€œWorld Model์„ ํ†ตํ•œ ์ƒํƒœ ์ „์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ๋ ˆ์ดํ„ดํŠธ ๊ณต๊ฐ„ ๊ณ„ํš ์กฐ์ •โ€

๋…ผ๋ฌธ ๋ณด๊ธฐ โ†’ Giridhar Ganapavarapu, Dhaval Patel
10
๐Ÿ›๏ธ ๋น…ํ…Œํฌ
Tencent Hunyuan

๐Ÿš€ โ€œ๋ชจ๋ธ ๊ธฐ๋ฐ˜์€ ๋” ์ข‹์ง€ ์•Š์•„? ์ด ๋…ผ๋ฌธ์ด ๊ทธ ๋ฏฟ์Œ์„ ๋’ค์ง‘์–ด๋ฒ„๋ ธ๋‹ค!โ€

Debiased Model-based Representations for Sample-efficient Continuous Control

๐Ÿ›๏ธ ์†Œ์†: Tencent Hunyuan (๋น…ํ…Œํฌ)

๐Ÿท๏ธ ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: model-based representation, debiased learning, prioritized replay, mutual information, continuous control

๐Ÿ’ญ ์ด๋Ÿฐ ์งˆ๋ฌธ์„ ํ•ด๋ณธ ์  ์žˆ๋‚˜์š”?

  • โ€œ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ํ•™์Šต ๋น„์šฉ์ด ๋†’์•„์„œ ์“ฐ์ง€ ์•Š๋Š”๋ฐ, ์™œ ์ด ๋…ผ๋ฌธ์€ ์˜คํžˆ๋ ค ๋” ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค์—ˆ๋‚˜?โ€
  • โ€œ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ๊ณผ๊ฑฐ ๊ฒฝํ—˜์—๋งŒ ์˜์กดํ•ด์„œ ํŽธํ–ฅ์ด ์ƒ๊ฒผ๋Š”๋ฐ, ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ–ˆ๋‚˜?โ€
  • โ€œํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํ•˜๋‚˜๋กœ ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ๊ฒŒ ์ง„์งœ ๊ฐ€๋Šฅํ•œ๊ฐ€?โ€

[ํ•ต์‹ฌ ์„ค๋ช…: ๊ธฐ์กด์—๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ‘œํ˜„์ด ๊ณผ๊ฑฐ ๊ฒฝํ—˜์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•ด ํŽธํ–ฅ์„ ๋งŒ๋“ค์—ˆ๊ณ , ์ด ๋…ผ๋ฌธ์€ ์ƒํƒœ-ํ–‰๋™ ํ‘œํ˜„๊ณผ ๋‹ค์Œ ์ƒํƒœ ๊ฐ„์˜ ์ƒํ˜ธ ์ •๋ณด๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋ฉฐ ํŽธํ–ฅ์„ ์ œ๊ฑฐํ•ด ํ•™์Šต ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ๋†’์˜€์Šต๋‹ˆ๋‹ค.]

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ :

  • **DR.Q๋Š” ๋‹จ์ผ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŠธ๋กœ 10๊ฐœ ์ด์ƒ์˜ ์—ฐ์† ์ œ์–ด ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ๊ฐ•๋ ฅํ•œ ๊ธฐ์ค€ ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ์šฐ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ตœ๋Œ€ 2.8๋ฐฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ**์„ ๋‹ฌ์„ฑ
  • **ํ‘œ๋ณธ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค 3.2๋ฐฐ ์ ์€ ์ƒ˜ํ”Œ๋กœ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ** (replay buffer ๊ธฐ๋ฐ˜ ์‹คํ—˜ ๊ธฐ์ค€)

๐ŸŽฏ ์™œ ์ด๊ฒƒ์ด ๊ฒŒ์ž„ ์ฒด์ธ์ €์ธ๊ฐ€? :

**๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• โ†’ ๊ณผ๊ฑฐ ๊ฒฝํ—˜์— ๊ณผ๋„ํ•œ ์˜์กด์œผ๋กœ ํŽธํ–ฅ๋œ ํ‘œํ˜„ โ†’ DR.Q๋Š” ์ƒํƒœ-ํ–‰๋™ ํ‘œํ˜„๊ณผ ๋‹ค์Œ ์ƒํƒœ ๊ฐ„ ์ƒํ˜ธ ์ •๋ณด ๊ทน๋Œ€ํ™” + ํŽ˜์ด๋“œ ์šฐ์„  ์žฌํ”Œ๋ ˆ์ด๋กœ ํŽธํ–ฅ ์ œ๊ฑฐ**

โœ‰๏ธ

๋งค์ผ ๋ฐ›์•„๋ณด์„ธ์š”

AI ๋ฐ์ผ๋ฆฌ ๋‰ด์Šค ยท ๋…ผ๋ฌธ ยท GitHub ํŠธ๋ Œ๋“œ๋ฅผ ๋งค์ผ ํ•œ๊ตญ์–ด๋กœ ์ •๋ฆฌํ•ด ๋ณด๋‚ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

์ŠคํŒธ ์—†์Œ ยท ์–ธ์ œ๋“  ๊ตฌ๋…์ทจ์†Œ ๊ฐ€๋Šฅ