SGNet 논문 리뷰 | Gihun Son

SGNet 논문 리뷰

Posted Jan 3, 2023

By Gihun Son 12 min read

[Spatial information Guided convolutionalNetwork]

Abstract

S-Conv is competent to infer the sampling offset of the convolution kernel guided by the 3D spatial information, helping the convolutional layer adjust the receptive field and adapt to geometric transformations.

(sampling offset이 무엇인지 해석 잘 안됨. offset이 단차로 해석될 것 같은데 어떤 의미 인지 알기)

요약: 기존에는 RGB와 3D spatial information을 별도로 처리하는 분할 네트워크 방식이었는데, 논문에서는 S-Conv(Spatial information guided Convolution)을 사용하여 해결하였다. RGB와 3D spatial information을 통합하여 추론한다. 공간 정보를 가중치로 만들어 Geometric정보를 포함한다. S-Conv를 이용하여 Semantic Segmentation Network, SGNet을 디자인했다.

1. Intruduction

Due to the effectiveness of Convolutional Neural Network (CNN) and additional spatial information, recent advances demonstrate enhanced performance on indoor scene segmentation tasks

최근 CNN의 효율성과 공간 정보의 추가로 실내 장면의 segmentation의 많은 성능 향상을 보여준다.

Nevertheless, there remains a significant challenge caused by the complexity of the environment and the extra efforts for considering spatial data, especially for applications that require real-time inference.

하지만 환경의 복잡성과 공간 정보를 고려하는 등의 추가적인 사항으로 real-time inference(실시간 추론)에는 아직 문제가 있다.

일반적으로 spatial data는 추가적으로 입력하여 처리하고 RGB image에 결합하는 방식으로 multi-modal information을 융합했다. HHA로 원래의 data를 변환하는 방법 등 여러 방식들이 있지만, 모두 계산 복잡도나 parameter를 증가시키는 등의 문제로 real-time inference에는 적합하지 않다.

However, due to the fixed structure of the convolution kernel, the 2D convolution in the aforementioned methods cannot well adapt to spatial transformation and adjust the receptive field inherently,

그러나 컨볼루션 커널의 고정된 구조로 인해 앞서 언급한 방법의 2D 컨볼루션은 공간 변환에 잘 적응하지 못하고 수용 필드를 본질적으로 조정하여 의미 분할의 정확도를 제한한다.

⇒Convolution을 수행하기 위한 더 나은 spatially adaptive sampling mechanism(공간적 적용 sampling)이 필요하다.

Main전의 내용 요약

기존의 방식들은 RGB image와 Geometric 정보를 따로 산출하여 더하는 방식으로 parameter가 많아 연산량이 늘어났다면, S-Conv는 spatial(공간)정보를 효율적으로 활용하여 Feature map에 특징을 효과적으로 나타낼 수 있도록 한다. 이를 통해 적은 양의 parameter만을 사용하여 적은 연산량으로도 높은 성능을 낼 수 있다.

Spatial information guided Convolution (S-Conv)

S-Conv는 기존의 RGB기반 Convolution에 spatial information(공간 정보)를 포함시켜 일반화시킨 것이다.

SGNet( Spatial information Guided Convolutional Network)

SGNet은 RGB-D Segmentation을 위해 S-Conv를 사용한 Network이다.

[S-Conv(Spatial information guided Convolution)]

S-conv의 구조에 대해 살펴보자면, 먼저 Spatial projector를 통해 공간 정보를 고차원의 Feature space에 project하는 공간변환함수라고 말합니다. 그 이후 Offset generator를 통해 offset을 정규화시켜주고, 가중치로 만들어 spatial정보에 적용한 후 Feature map에 적용합니다. 논문은 이를 통해 적은 양의 parameter와 계산 추가만으로 공간을 더 잘 인식할 수 있게 된다고 말합니다.

c(channel), h(height), w(width)

위와 같은 방식으로 차원을 나타낸다. i는 first dimension을 가리키고, j는 2, 3 dimension을 가리킨다.

논문에서는 단순화를 위해 input Feature map의 channel을 1로 하여 2D로 설명하였다.

기존의 convolution연산은 위와 같이 하였다.

위 수식을 완벽하게 이해하지 못하였다.

RGBD 단계에서 3D 공간 정보를 ‘adaptive(적용 가능한) convolution kernel’을 사용하여 효과적으로 추가한다.
우선 spatial information에 따라 ‘offset’을 생성한다. (offset이 무엇인지 이해하지 못했다)

⇒offset은 위, 아래, 대각선으로 자세히 구별할 수 있게 해주는 parameter

⇒ 위의 d가 offset에 해당한다.

S-Conv는 두개의 input이 필요하다.
1. 기존의 Convolution에서의 Feature map
2. spatial information S

S는 c’의 값에 따라 HHA(c’=3), 3D coordinates(3차원 좌표), 또는 Depth(c’=1)가 될 수 있다.

⇒ Depth를 3D 좌표와 HHA로 Encoding하는 방법은 기존과 동일하고

가장 중요한 것은 Spatial Information이 Feature Map에 포함되지 않는 것이다!

S-Conv에서 첫 단계는 Input Spatial Information을 고차원의 Feature Space에 Project시키는 것
Φ는 Spatial Transformation Function(공간 변환 함수)이다.

⇒Φ함수를 적용한 후의 S’의 차원의 위와 같이 64 x h x w이다.

그 후 변환된 Spatial Information S’를 고려하여, Geometric 구조를 인식하고, 각각 다른 p에서의 Convolution Kernel들의 분포(x, y축에서 pixel 좌표의 offset)를 생성한다. 그 과정이 Δd = η(S).
η함수는 Convolution처럼 작용할 수 있는 Non-Linear Function이다.

∆d(p)를 이용하여 각 p에 따른 kernel들의 분포를 생성했다면, Geometric구조와 Convolution Weight의 연결을 더 확실히 하여 Feature Extraction(특징 추출) 성능을 더 올린다.
공간적으로 적응된 가중치(=∆d(p))를 생성한 이후 Convolution kernel에 해당하는 Depth 정보를 원한다. 즉 pixel들의 Geometric 정보를 추출하고 싶은 것.
S∗(p) = {S’(p + di + ∆di(p)) i=1,2,…,K}는 변환된 이후 p를 중심으로 한 Convolution Kernel의 Feature Map에 해당하는 공간 정보이다.

f는 non-linear activation function으로 이루어진 FCN(Fully Connected Layer)처럼 동작하는 non-linear function
σ는 Sigmoid 함수
‘·’ 은 요소 별 곱셈
W는 Convolution Weights(Gradient Descent Algorithm으로 최신화되는)

S-conv의 구조에 대해 말씀드리기 전 S-conv의 장점에 대해 말씀드리자면, 기존 방식들은 RGB와 depth 정보를 따로 산출하는 방식으로 parameter가 많았는데, S-conv는 기존 RGB기반의 convolution에 spatial information을 포함시켜 일반화시킵니다. 따라서 parameter가 적습니다. 화면의 오른쪽 위의 그림과 같은 2D convolution은 공간 변환에 잘 적응하지 못한다고 논문은 언급하고, 그 해결책이 바로 sampling offset을 활용하는 것이라고 말합니다. Sampling offset은 위, 아래, 대각선 등의 2차원 convolution으로 표현할 수 없는 3차원적 방향성이라고 이해했습니다. 따라서 오른쪽 아래 그림과 같이 공간정보를 알 수 있는 것입니다.

W*(p)는 공간 정보와 Convolution Weight의 관계를 더 확실하게 해주는 것을 볼 수 있다.

[SGNet( Spatial information Guided Convolutional Network)]

Backbone으로 ResNet101을 사용하였고, Convolution들 중 일부를 S-Conv로 대체하였다.
Deep Supervision이 무엇인지 잘 이해 못함(layer 3, 4 사이에 존재하는 것)

⇒Deep Supervision이란 Deep Neural Network에서 classifier를 여러 개 두어 성능을 올리는 것

⇒Supervision은 추가적인 정보와 같다. DenseNet에서는 각 층별로 shorter connection을 이용하여 더 다양한 정보(Loss와 같은)를 얻을 수 있고 이를 통해 Loss Function이나 Gradient값은 단순하게 할 수 있다.

Deep Supervision을 layer 3, 4사이에 두어 Optimization(최적화, Loss Function이 줄어들도록 Model Parameter를 수정하는 과정)성능을 늘렸다.

[실험 결과에 대해서는 생략하였다]

[번역]

본 논문에서는 새로운 S-Conv( Spatial information Guided Convolution) 연산자를 제안한다. 기존의 2D 컨볼루션과 비교하여 입력 공간 정보에 따라 컨볼루션 가중치와 분포를 적응적으로 조정할 수 있으므로 몇 가지 추가 매개변수와 계산 비용만 으로 기하학적 구조를 더 잘 인식할 수 있습니다.

또한 실시간 추론 속도를 제공하고 RGBD 시맨틱 분할을 위한 NYUDv2 및 SUNRGBD 데이터 세트에서 경쟁력 있는 결과를 달성하는 S-Conv가 장착된 SGNet( Spatial information Guided Convolutional Network)을 제안합니다.

또한 서로 다른 입력을 사용하여 오프셋을 생성하는 성능을 비교하여 RGB 기능보다 공 간 정보를 사용하는 이점을 보여줍니다. 또한 각 레이어의 깊이 적응 수용 필드를 시각 화하여 효율성을 보여줍니다. 앞으로 우리는 서로 다른 모달 정보의 융합과 S Conv 구 조의 적응적 변화를 동시에 조사하여 이 두 가지 접근 방식이 서로 이익이 되도록 할 것 입니다. 또한 포즈 추정 및 3D 객체 감지와 같은 다양한 분야에서 S Conv의 적용을 살 펴볼 것입니다.

Paper, RGB-D Segmentation

This post is licensed under CC BY 4.0 by the author.