RDFNet 논문 리뷰
[RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation]
- RGB-D data를 쓰는 multi-class indoor semantic segmentation에서 RGB feature에 depth feature를 포함시키는 것은 Segmentation Accuracy를 향상시키는 것으로 나타났다.
- 하지만 이전의 연구들은 multi-modal feature fusion의 잠재력을 충분히 이용하지 못했다. (단순히 RGB와 Depth feature를 concat하거나RGB와 Depth score map을 평균하는 등의)
- multi-modal feature들의 최선의 fusion을 학습시키기 위해서, 논문은 residual learning의 핵심 아이디어를 RGB-D semantic segmentation으로 확장하는 새로운 network를 제시한다. ⇒ 논문의 network는 multi-modal feature fusion block들과 multi-level feature refinement block들을 포함함으로써 multi-level RGB-D CNN features를 효과적으로 capture한다.
- Feature fusion block들은 RGB와 depth data의 상호 보완적인 특성을 충분히 이용하기 위해 residual RGB and depth features와 이들의 결합을 학습한다.
- Feature refinement blocks는 high-resolution prediction(고해상도 예측)을 위해 multiple levels에서의 융합된 feature들의 결합을 학습한다.
- 논문의 network는 skip-connection의 이점을 최대한 가져감으로써 각 modality의 끝과 끝에서의 차별적인 multi-level feature들을 효과적으로 학습할 수 있다.
[논문의 기여]
- Residual learning의 핵심 아이디어를 RGB-D semantic segmentation으로 확장함으로써 very deep network에서 multi-level RGB-D features를 효과적으로 extract하고 fuse하는 network를 제안
- 논문의 multi-modal feature fusion block은 Skip-connection을 통해 Residual learning의 장점을 최대한 활용함으로써 단일 GPU에서 차별적인 RGB-D features의 효과적인 end-to-end training을 가능하게 한다.
- RDFNet의 구조
[Main]
- Multi-level features의 활용은 high resolution dense prediction(고해상도 밀도 예측)에 중요
- 기존의 RGB-D semantic segmentation은 효과적으로 2개의 modality의 feature를 융합하지 못함
- 논문은 multi-level RGB-D features를 이용하고 Skip-connection을 사용하는 Residual learning을 통해 서로 다른 modality의 feature들을 효과적으로 융합하는 Network를 제안
- 먼저 최근 제안된 RefineNet Architecture를 연구 ⇒Residual Connection을 적용하여 RGB semantic segmentation에서 성공을 거둠
- 그 후 Multi-level RGB와 Depth features를 extract, fuse하는 방법을 효과적으로 학습하도록 확장시킨 RefineNet인 논문의 Network를 소개(Indoor Semantic Segmentation을 위한 Network)
[3.1. RefineNet Review]
- 단일 label prediction layer를 dense prediction layer로 바꿈
- 하지만 output prediction이 각 spatial dimension(공간차원)에서 original image보다 32배 작다 ⇒ Sub-building blocks(RefineNet)을 통해 low-level feature들을 통합함으로써 higher-level features를 반복적으로 개선
- RefineNet은 skip connection을 통해 각 단계(each multi-level) ResNet feature와 이전에 Refine된 Feature를 Input으로 받는다.(2개의 input) ⇒ Input으로 받은 Feature들은 sub-components(Residual Convolutional Unit(RCU), Multi-Resolution Fusion, Chained Residual Pooling)의 연속된 구조에 의해 refine되고 fuse된다.
- Residual Convolutional Unit(RCU) ⇒Semantic Segmentation을 위해 pretrain된 ResNet Weights를 미세 조정하는 adaptive convolution set
- Multi-Resolution Funsion Block ⇒Input들을 high-resolution map에 융합시킴
- Chained Residual Pooling(CRP) ⇒Large Region에서 Contextual(맥락과 관련된) information을 encoding하는 것이 목적 (각각 하나의 max-pooling layer와 convolution layer로 구성됨)
- pooling 연산은 주변 location에서 접근할 수 있는 Large Activation Value를 contextual features로 확산시키는 효과를 가지고 있다.
3.2. Our RDFNet with Multi-Modal Feature Fusion
- RefineNet은 단순히 Feature들을 concat하는 것보다 효과적인, 서로 다른 level feature들을 융합하기 위한 일반적인 방법을 제시 ⇒논문은 Skip Connection의 이점은 유지하면서 Multi-Modal CNN Feature Fusion을 위한 비슷한 Architecture를 사용
- RDFNet은 Multi-Modal Feature Fusion을 다루기 위해 RefineNet을 확장하였고, fused feature refinement를 위해 RefineNet block들을 포함한다.
- 논문의 Feature Fusion Block(MMFNet)은RefineNet과 동일한 구성으로 되어있지만, 요구하는 작업이 조금은 다른, 서로 다른 input들을 받는다는 점에서 다5르다.
[순서]
- RGB와 Depth ResNet features가 주어지면, MMFNet은 먼저 parameter들의 증폭을 완화하면서 효과적인 training을 가능하게 하기 위해 하나의 convolution으로 각 feature의 dimension을 줄인다.
- 각 Feature는 RefineNet과 같이 2개의 RCU(Residual Convolutional Unit)와 1개의 Convolution을 통과한다. ⇒ MMFNet과 RefinNet에서 RCU의 의도(목적) 사이에는 분명한 차이점이 존재 ⇒ MMFNet의 RCU는 Modality Fusion을 위한 nonlinear transformation을 수행하기를 요구된다.
- 서로 다른 modality의 Feature들은 operation으로 서로를 향상시키기 위해 상호보완적으로 결합된다.
- 반면, RefineNet의 RCU는 higher-resolution의 lower level feature를 이용하여 coarse(조잡한) higher level feature 개선한다.
- MMFNet의 다음 Convolution은 서로 다른 modality의 Feature를 적응적으로 융합하는 것에 중요할 뿐만 아니라, summation을 위해 Feature Value를 적절하게 re-scaling(재조정)에도 중요하다.
- Color Feature Value(RGB Value)가 일반적으로 Depth Feature보다 Semantic Segmentation을 위한 더 좋은 Discrimination(식별) power를 가지고 있기 때문에, Summantion Fusion은 주로 supplementary(부가적인) 또는 residual(잔여의) Depth feature들을 학습하기 위해 동작 (복잡한 pattern들을 식별할 수 있는 RGB Feature를 개선할 수도 있다)
- 각 modality feature의 중요성(가중치)은 RCU block 다음에 있는 convolution 안의 학습 가능한 parameter들을 통해 조절될 수 있다.
- Fused Feature에서 확실한 Contextual Information을 포함하기 위해 추가적인 Residual Pooling operation을 수행한다.
- 각 level의 MMFNet에서 Residual Pooling 하나만 있으면 충분하다는 것을 발견했다.
- 더 강력한 Contextual information은 RefineNet Blocks를 통해 다음과 같은 Multi-level fusion에 그 이상으로 통합될 수 있다.
- MMFNet의 output은 RefineNet의 RCU를 곧바로 통과하기 때문에, MMFNet의 마지막 부분에 들어가는 RCU는 생략하였다.
- 논문은 Semantic Segmentation에서 효과적인 Multi-Modal CNN Feature를 extract하기 위해 skip-connection을 활용하여 Residual Learning의 최대 이점을 가져가는 새로운 Network를 제안
- Residual Architecture는 단일 GPU에서 very deep RGB-D CNN Feature의 효과적이고 end-to-end training을 가능하게 한다.
- MMFNet은 최근의 Multi-level Feature Refinement Architecture가 Skip-connection의 장점을 유지하면서, 서로 다른 modality의 Features를 활용하도록 효과적으로 확장 가능하다는 것을 보여준다.
This post is licensed under CC BY 4.0 by the author.