๐ค "๋ชจ๋ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋จธ์ ์ ์ง์ด๋ฃ๊ณ ์ถ๋ค? ์ด์ ์ง์ง๋ก ๊ฐ๋ฅํด์ก๋ค."
Cosmos 3: Omnimodal World Models for Physical AI
๐๏ธ ์์: NVIDIA (๋น ํ ํฌ)
๐ท๏ธ ํต์ฌ ํค์๋: omnimodal, world model, physical AI, mixture-of-transformers, embodied agent
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
- โ์์ + ์์ฑ + ํ ์คํธ + ํ๋โ์ ํ๋์ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ ์ ์์๊น?
- ๋ก๋ด์ด ํ๊ฒฝ์ โ์ดํดโํ๊ณ โ์์ฑโํ๋ ๊ฒ ํ๋์ ๋ชจ๋ธ๋ก ๊ฐ๋ฅํ ๊น?
- ๊ธฐ์กด์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋๋ฌด ๋๋ฆฌ๊ณ , ๋ก๋ด ์ ์ฑ ๋ชจ๋ธ์ ๋๋ฌด ์ ํ์ ์ผ๊น?
[ํต์ฌ ์ค๋ช : ๊ธฐ์กด์๋ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ(์์, ์์ฑ, ํ ์คํธ ๋ฑ)๋ฅผ ๋ ๋ฆฝ๋ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ๊ณ , ๋ก๋ด ํ๋์ ๋ณ๋์ ์ ์ฑ ๋ชจ๋ธ์ด ํ์ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ํ๋์ mixture-of-transformers ์ํคํ ์ฒ๋ก ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํด โ๋ฌผ๋ฆฌ์ AIโ๋ฅผ ํ๋์ ๋ผ๋๋ก ๊ตฌํํ์ต๋๋ค.]
ํนํ ์ฃผ๋ชฉํ ์ :
- **Text-to-Image ๋ฐ Image-to-Video ๋ชจ๋ธ์์ 1์** โ Artificial Analysis๊ฐ ํ๊ฐํ ์ต๊ณ ์คํ์์ค ๋ชจ๋ธ๋ก, ๊ธฐ์กด ์ต๊ณ ๋ชจ๋ธ ๋๋น 2.3๋ฐฐ ๋ ๋์ ์์ฑ ํ์ง์ ๋ฌ์ฑ
- **RoboArena์์ ์ต๊ณ ์ ์ฑ ๋ชจ๋ธ** โ ๊ธฐ์กด ์ต๊ณ ๋ชจ๋ธ ๋๋น 1.8๋ฐฐ ๋ ๋์ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ๋ฌผ๋ฆฌ์ ์์ด์ ํธ์ ์ ์ฑ ํ์ต์ ์ ํฉํ ํ๋ จ ์ฑ๋ฅ์ ์ ์ฆ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? :
**๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ถ์ฐ ๋ชจ๋ธ โ ํ๋์ ํตํฉ ์ํคํ ์ฒ๋ก ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ์ธ๊ณ ๋ชจ๋ธ**