๐ง โ๋น์ฃผ์ผ ์ฆ๊ฑฐ ์์ผ๋ฉด 2% ์ ๋ต๋ฅ ? ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ต์ ์ง์ง ํ์ ๋ณด์ฌ์ฃผ๋ ํ ์คํธโ
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
๐๏ธ ์์: NVIDIA (๋น ํ ํฌ)
๐ท๏ธ ํต์ฌ ํค์๋: multimodal memory, long-term reasoning, vision-language models, memory-augmented agents, cross-modal benchmark
๐ญ ์ด๋ฐ ์ง๋ฌธ์ ํด๋ณธ ์ ์๋์?
- โ์ด์ ๋ํ์์ ๋งํ ๊ทธ ์ด๋ฏธ์ง, ์ง๊ธ ๋ค์ ๋ณด์ฌ์ค์ผ ํ ๋ ์ด๋ป๊ฒ ๊ธฐ์ตํด?โ
- โ์ฌ์ง์ด ์์ด๋ ์ด์ ๋ํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์ ๋ต์ ๋์ถํ ์ ์์๊น?โ
- โ์ฌ์ง์ด ์์ผ๋ฉด ์ ๋ต๋ฅ 80.4%์ธ๋ฐ, ์ฌ์ง ์์ผ๋ฉด 2%? ์ด๊ฑด ์ง์ง ๋๋ผ์ด ์ฐจ์ด์ผ.โ
[ํต์ฌ ์ค๋ช : ๊ธฐ์กด์๋ ๋ฉํฐ๋ชจ๋ฌ ์ฅ๊ธฐ ๊ธฐ์ต์ โ๊ธด ๋ฌธ๋งฅ ๋ชจ๋ธโ๊ณผ โ๋ฉ๋ชจ๋ฆฌ ๋ณด๊ฐ ์์ด์ ํธโ ๋ ๋ฐฉ์์ผ๋ก ๋๋ ๋น๊ตํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ์ฒซ ๋ฒ์งธ๋ก โ์ง์ง ๋ฉํฐ๋ชจ๋ฌ ์ฆ๊ฑฐ๊ฐ ํ์ํ ์ง๋ฌธโ์ ๊ธฐ์ค์ผ๋ก ๋ ๋ฐฉ์์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ตํด๋๋ค.]
ํนํ ์ฃผ๋ชฉํ ์ :
- 789๊ฐ์ ์ง๋ฌธ ์ค 80.4%๋ ์ด๋ฏธ์ง ์ฆ๊ฑฐ๊ฐ ํ์ํ๊ณ , ์ด๋ฅผ ์ ๊ฑฐํ๋ฉด ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ ์ ๋ต๋ฅ 2%๋ก ํญ๋ฝ
- 27๊ฐ์ LVLM๊ณผ 7๊ฐ์ ๋ฉ๋ชจ๋ฆฌ ์์ด์ ํธ๋ฅผ ํ๊ฐํด, ๋ค์ค ์ธ์ ์ถ๋ก ์ฑ๋ฅ์ ๋๋ถ๋ถ 30% ์ดํ๋ก ์ ํ๋จ
๐ฏ ์ ์ด๊ฒ์ด ๊ฒ์ ์ฒด์ธ์ ์ธ๊ฐ? :
โ๋จ์ํ ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ โ ์๊ฐ ์ฆ๊ฑฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ตฌ์กฐํ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ฒ์ + ์ฅ๊ธฐ ๊ธฐ์ต ๊ฒฐํฉโ
โ โ๋ค์ค ์ธ์ ๋ํ์์ ์๊ฐ ์ ๋ณด๋ฅผ ์์ง ์์ผ๋ฉด์๋ ์ฅ๊ธฐ ๊ธฐ์ต์ ์ ์งํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ๋ก ์งํโ