논문 리뷰/VLM2 BLIP-2 논문 정리 오늘은 BLIP-2 연구에 대해 정리하고자 한다.먼저 BLIP-2 연구가 나오게 된 배경부터 차근차근 알아가보자.문제점: VLP의 효율성Vision-language pre-training (VLP)연구는 최근 수 년 사이에 주목할만한 결과를 보여주었다.그러나, 대부분의 SOTA vision-language model은 거대한 모델구조와 수없이 많은 데이터셋 사용으로 인해 모델을 pre-training을 하는데 아주 높은 computation cost를 요구한다.더욱이, LLM 같은 unimodal pre-trained model를 활용할 수 없어 구조적으로 유연성이 떨어진다.기존에 frozen 비전모델과 언어모델을 사용해서 VLP를 달성한 연구들이 있었으나(e.g. Frozen (Tsimpoukelli .. 논문 리뷰/VLM 2024. 11. 5. CLIP (Contrastive Language-Image Pre-Training) 논문 리뷰 해당 포스트에서는 OpenAI의 CLIP 논문을 요약하는 글을 써보려 한다.1~2년전부터 꾸준히 Vision Language Model에 대한 관심과 연구가 증가하고 있는 상황에서, CLIP은 이러한 연구들에서 자주 언급되는 아주 중요한 연구/논문이다.이전에 NLP 관련 모델을 가지고 놀아본 적이 있었는데, 확실히 Vision 분야보다 더 앞서고 있는 부분들이 많다는 생각이 들었다. CLIP은 NLP에서 성공한 방식을 Vision분야에 가지고와 적용시켜보는 내용을 포함하고 있다. 내용을 참고하여 Vision 연구의 방향은 어떻게 변할까 나름대로 생각해보는 시간을 갖는 것도 좋을 것이다.BackgroundCLIP 연구의 동기 및 배경을 정리하자면 다음과 같다. 1. NLP에서 방대한 양의 데이터를 학습가능.. 논문 리뷰/VLM 2024. 10. 29. 이전 1 다음