๐ง โ์์ ์์ผ๋ฉด AI๋ 2%๋ ๋ชป ๋ง์ถ๋ค? ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ต์ ์ง์ง ํ ์คํธ๋ ์ด๊ฑฐ์ผ.โ
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
๐๏ธ ์์: NVIDIA (๋น ํ ํฌ)
๐ท๏ธ ํต์ฌ ํค์๋: multimodal memory, long-context LVLM, memory-augmented agents, cross-modal reasoning, benchmarking
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
- โ์ด์ ๋ํ์์ ๋งํ ๊ทธ ์ด๋ฏธ์ง, ์ง๊ธ ๋ค์ ๋ณด์ฌ์ค์ผ ํ๋๋ฐโฆ ์ ๋ชป ์ฐพ์ง?โ
- โ๋ํ๊ฐ ๊ธธ์ด์ง๋ฉด AI๊ฐ ๊ธฐ์ต์ ๋ชป ํ๋๊น ๋ต์ด ํ๋ฆฌ๋ ๊ฑฐ์ผ?โ
- โ์ฌ์ง์ด ์์ผ๋ฉด AI๊ฐ ์ง๋ฌธ์ ๋ตํ ์ ์์๊น?โ
[ํต์ฌ ์ค๋ช : ๊ธฐ์กด์๋ ๋จ์ํ ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ LVLM๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฆ๊ฐ ์์ด์ ํธ๋ฅผ ๋ณ๊ฐ๋ก ํ๊ฐํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ๋ ๋ฐฉ์์ ํ๋์ โ๋ฉํฐ์ธ์ ๋ํโ ํ ์คํธ์์ ๋น๊ตํด โ์ค์ ๋ฉํฐ๋ชจ๋ฌ ์ฆ๊ฑฐโ๊ฐ ํ์ํ ๋ฌธ์ ์ ์ด๋ค ๋ฐฉ์์ด ๋ ๋์์ง ์ฒด๊ณ์ ์ผ๋ก ๋ฐํ๋ค.]
ํนํ ์ฃผ๋ชฉํ ์ :
- 789๊ฐ์ ์ง๋ฌธ ์ค 80.4%๊ฐ ์ด๋ฏธ์ง ์ฆ๊ฑฐ๋ฅผ ์๊ตฌํ๋๋ฐ, ์ด๋ฏธ์ง๋ฅผ ์ ๊ฑฐํ๋ฉด ์ต๊ณ ์์ค LVLM์ด ์ ๋ต๋ฅ 2%๋ก ๋จ์ด์ง
- 27๊ฐ์ LVLM๊ณผ 7๊ฐ์ ๋ฉ๋ชจ๋ฆฌ ์ฆ๊ฐ ์์ด์ ํธ ์ค, ๋ฉํฐ์ธ์ ์ถ๋ก ์ฑ๋ฅ์ ๋๋ถ๋ถ 30% ์ดํ๋ก ์ ํ๋จ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? :
๋จ์ํ ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ โ ๋ฉํฐ์ธ์ ๋ํ์์ ์ด๋ฏธ์ง ์ฆ๊ฑฐ๋ฅผ ์ ์งํ๋ฉด์๋ ์ฅ๊ธฐ ๊ธฐ์ต์ ๊ตฌ์กฐํํ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ