VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
CVPR 2018
keyword: LiDAR only, Voxel-based, machine-learned feature, 2-stage, end-to-end.
1. Introduction
이전 연구에서 hand-crafted feature를 사용하여 encode하는 시도들이 많았다. 하지만 hand-crafted feature는 엔지니어의 고도한 effort가 들어가고, 3D 정보를 잘 활용하지 못하므로 information bottleneck이 된다. 2D image data에서 machine learned feature가 이루어낸 성과를 생각해 보라! (3D에서도 machine learned feature를 사용하는게 바람직하다.) 또한, PointNet, PointNet++은 machine learned feature를 사용하지만, 각 포인트마다 연산이 요구되므로, high computation하다는 문제를 가지고 있다. 이러한 문제를 해결하기 위해 VoxelNet을 제시한다.
2. Contribution
i. VoxelNet, manual feature에서 오는 information bottlenecks를 해결한 machine learned feature를 사용한 network.
ii. sparse point 구조를 고려한, VoxelNet를 구현하는 효율적인 방법.
iii. KITTI SOTA
3. VoxelNet Architecture
Feature learning net, Conv layer, RPN으로 구성.
3.1 Feature learning net
여러개의 Voxel Feature Encoding(VFE)를 stack하여 voxel단위 feature를 뽑아냄.
VFE - 각 point들의 feature에 voxel 내부의 locally aggregated feature를 concat 시킴
마지막 VFE이후에는 복셀마다 복셀 내부의 포인트 feature들의 Element-wise Maxpool를 통해 복셀 단위의 feature를 만들어 냄.
3.2 Conv layer
3.1의 복셀 feature에 3d conv를 적용.
3d convolutional middle layer to consolidate the vertical axis - PointPillars.
3.3 RPN
크기는 같고 각도가 0도, 90도 인 2개의 anchor box사용.
foreground score와 box regression값을 output.
4. Conclusion
VoxelNet을 통해, manual feature의 단점인 bottleneck을 해결.
'논문 리뷰 > Computer Vision' 카테고리의 다른 글
3D-CVF 요약 (0) | 2022.02.25 |
---|---|
PointPillars 요약 (0) | 2022.02.22 |
SASA 요약 (0) | 2022.02.22 |
SECOND 요약 (0) | 2022.02.20 |
3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial FeatureFusion for 3D Object Detection (0) | 2022.01.22 |
댓글