논문 리뷰8 BLIP-2 논문 정리 오늘은 BLIP-2 연구에 대해 정리하고자 한다.먼저 BLIP-2 연구가 나오게 된 배경부터 차근차근 알아가보자.문제점: VLP의 효율성Vision-language pre-training (VLP)연구는 최근 수 년 사이에 주목할만한 결과를 보여주었다.그러나, 대부분의 SOTA vision-language model은 거대한 모델구조와 수없이 많은 데이터셋 사용으로 인해 모델을 pre-training을 하는데 아주 높은 computation cost를 요구한다.더욱이, LLM 같은 unimodal pre-trained model를 활용할 수 없어 구조적으로 유연성이 떨어진다.기존에 frozen 비전모델과 언어모델을 사용해서 VLP를 달성한 연구들이 있었으나(e.g. Frozen (Tsimpoukelli .. 논문 리뷰/VLM 2024. 11. 5. CLIP (Contrastive Language-Image Pre-Training) 논문 리뷰 해당 포스트에서는 OpenAI의 CLIP 논문을 요약하는 글을 써보려 한다.1~2년전부터 꾸준히 Vision Language Model에 대한 관심과 연구가 증가하고 있는 상황에서, CLIP은 이러한 연구들에서 자주 언급되는 아주 중요한 연구/논문이다.이전에 NLP 관련 모델을 가지고 놀아본 적이 있었는데, 확실히 Vision 분야보다 더 앞서고 있는 부분들이 많다는 생각이 들었다. CLIP은 NLP에서 성공한 방식을 Vision분야에 가지고와 적용시켜보는 내용을 포함하고 있다. 내용을 참고하여 Vision 연구의 방향은 어떻게 변할까 나름대로 생각해보는 시간을 갖는 것도 좋을 것이다.BackgroundCLIP 연구의 동기 및 배경을 정리하자면 다음과 같다. 1. NLP에서 방대한 양의 데이터를 학습가능.. 논문 리뷰/VLM 2024. 10. 29. 3D-CVF 요약 3D-CVF3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object DetectionECCV20노란형광펜1. Introduction라이다 데이터는 멀어질수록 sparse해진다는 단점이 있어 이를 이미지 데이터로 보완 해 줄 수 있다.그러나 카메라 이미지에서 얻은 feature와 lidar에서 얻은 feature는 서로 다른 시점(camera-view vs 3d world view)를 가지고 있으므로, 둘의 feature를 fusion하는것은 쉽지않다.본 논문은 두 feature를 적절하게 fuse하는 방법을 소개한다.2. Contributions이미지를 lidar bev 차원.. 논문 리뷰/Computer Vision 2022. 2. 25. PointPillars 요약 PointPillars: Fast Encoders for Object Detection from Point Clouds CVPR 19 keyword: LiDAR-only, pillars-based, one-stage, 0. comment 굉장히 빠름. 1. Intro VoxelNet은 3d conv를 사용하기때문에 inference time이 좋지 않았다. 이를 sparse로 해결한 SECOND가 있지만 3D conv는 여전히 bottleneck이 된다. PointPillars는 오직 2D conv만 사용하여서 이를 해결 하고자 한다. Pillars의 feature를 훈련하는 encoder를 통해 3d detection을 수행한다. 이것의 장점으로 다음이 있다. fixed encoder가 아닌 learn.. 논문 리뷰/Computer Vision 2022. 2. 22. SASA 요약 SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detectio AAAI2022 keyword: LiDAR-only, point based 0. Comment rgb 이미지에서 가져온 정보를 고려해서 sampling하는 방법? sampling 이후에는 Set Abstraction 적용. 1. Introduction 기존 point based 3d detection에서 많이 사용된 Set Abstraction(SA)의 문제점을 지적하였음. 현재 SA에서 key point를 smapling하는 방법은 FPS로, 전체 scene을 잘 표현하도록 서로 거리가 먼 point들을 골랐음. 하지만, 이렇게 되면 object detection에 .. 논문 리뷰/Computer Vision 2022. 2. 22. SECOND 요약 SECOND: Sparsely Embedded Convolutional Detection keword: Voxel-based, Lidar only, one-stage 1. Introduction VoxelNet의 Convolutional layer는 sparse한 tensor에서 이루어지므로, 속도가 느리다는 단점이 있다. SECOND에서는 이를 sparse conv를 통해 해결한다. 2. Contribution i. sparse conv를 lidar-based 객체 탐지에 적용 ii. sparse conv를 구현하는 효율적인 방법 제시 iii. novel angle loss regression iiii. novel data augmentation 3. SECOND architecture VFE까지는 V.. 논문 리뷰/Computer Vision 2022. 2. 20. VoxelNet 요약 VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection CVPR 2018 keyword: LiDAR only, Voxel-based, machine-learned feature, 2-stage, end-to-end. 1. Introduction 이전 연구에서 hand-crafted feature를 사용하여 encode하는 시도들이 많았다. 하지만 hand-crafted feature는 엔지니어의 고도한 effort가 들어가고, 3D 정보를 잘 활용하지 못하므로 information bottleneck이 된다. 2D image data에서 machine learned feature가 이루어낸 성과를 생각해 보라! (3D에서도 mach.. 논문 리뷰/Computer Vision 2022. 2. 19. 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial FeatureFusion for 3D Object Detection 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial FeatureFusion for 3D Object Detection - ECCV2020 https://arxiv.org/abs/2004.12636 0. 요약 Lidar pipeline 라이다 데이터를 voxelization 한다. 이를 VoxelNet을 통해 encode, 6개의 sparse conv layer을 통해 최종적으로 BEV domain에서 128 channel의 feature를 얻음. Camera pipeline 라이다 파이프라인과 병렬로 작동. 사전에 훈련된 ResNet-18과 FPN을 통해 256 channel의 feature를 얻음. Cross-View.. 논문 리뷰/Computer Vision 2022. 1. 22. 이전 1 다음