X-Decoder 논문 리뷰
X Decoder(Generalized Decoding for Pixel, Image, and Language) Abstract [Abstract 번역] 해당 논문에서는 X-Decoder라는 모델을 제안하며, 이 모델은 픽셀 수준의 세그멘테이션과 언어 토큰을 예측할 수 있는 일반화된 디코딩 모델입니다. X-Decoder는 두 가지 종류의 ...
X Decoder(Generalized Decoding for Pixel, Image, and Language) Abstract [Abstract 번역] 해당 논문에서는 X-Decoder라는 모델을 제안하며, 이 모델은 픽셀 수준의 세그멘테이션과 언어 토큰을 예측할 수 있는 일반화된 디코딩 모델입니다. X-Decoder는 두 가지 종류의 ...
▪ 9x9 Gaussian filter를 구현하고 결과를 확인할 것 ▪ 9x9 Gaussian filter를 적용했을 때 히스토그램이 어떻게 변하는지 확인할 것 ▪ 영상에 Salt and pepper noise를 주고, 구현한 9x9 Gaussian filter를 적용해볼 것 [Code] #include <iostream> #includ...
Label Decoupling Framework for Salient Object Detection 더 정확한 saliency map을 얻기 위해서, 최근 방법들은 fully-convolutional network(FCN)을 통해 multi-level feature들을 종합하고, auxiliary(보조의) supervision을 위한 edg...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Latent Diffusion Models Github 해당 논문을 자세히 공부하게 된 이유(흥미로웠던 부분) ⇒대략적으로 살펴보았을 때, RGB에서 Depth map을 추정하고, 그 추정한 Depth...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Image Translation for Person Re-Identification in Multispectral Dataset 아래 논문(ThermalGAN)은 RGB를 GAN을 활용하여 Therma...
[Multilevel Gated Collaborative Network for RGB-D Semantic Segmentation of Indoor Scene] 실내 RGB-D semantic segmentation은 오래 동안 연구주제로 이어져오고 있다 하지만 modal 정보의 본질적인 차이와 multi-level feature cue의...
논문은 Multimodal Recurrent Neural Netwoks(RNNs)라는 RGB-D scene Semantic Segmentation을 위해 새로운 방법을 제안한다. 이 Network는 RGB color channels와 Depth maps가 Input Source로 주어지면 Image pixel을 분류하는 것에 최적화되어있습...
[Application of Multi-modal Fusion Attention Mechanism in Semantic Segmentation] Deep learning algorithm의 발전으로 Semantic Segmentation의 어려움은 연구자들에게 흥미로운 주제로 다시 다가왔다. 논문의 연구는 RGB-D image를 inpu...
[Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation] Depth information은 RGB-D Semantic Segmentation에서 RGB representation에 대...
[RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation] RGB-D data를 쓰는 multi-class indoor semantic segmentation에서 RGB feature에 depth feature를 포함시키는 것은 Segmentatio...
[Uncertainty-aware Cross-modal Transformer Network for Indoor RGB-D Semantic Segmentation] [요약] RGB-D Semantic Segmentation에서 1)depth sensor data에서 Feature를 추출하는 방법과 2)두 개의 양식에서 추출된 feature들을 효...
[Spatial information Guided convolutionalNetwork] Abstract S-Conv is competent to infer the sampling offset of the convolution kernel guided by the 3D spatial information, helping the convoluti...
[Two-Stage Cascaded Decoder for Semantic Segmentation of RGB-D Images] Cascaded Decoder는 계단식, 즉 단계적인 Decoder를 의미하는 것이라고 생각했다 [구글해석] RGB 및 깊이 정보를 활용하면 시맨틱 분할의 성능을 높일 수 있습니다. 그러나 RGB 영상과 ...
특징 Multi-Scale Feature를 output으로 하는 계층적인 구조의 Transformer Encoder사용 ⇒ ViT와 다르게 Positional Encoding을 사용하지 않는다. 복잡한 Decoder를 사용하지 않고, MLP로만 이루어진 MLP decoder를 사용 ⇒ Encoder에서 얻은 Multi-Scale ...
1. Introduction NLP에서 Transformer의 성공에 영향을 받아 Computer Vision분야에서 Self-Attention을 적용한 CNN architecture를 개발하였지만 하드웨어의 가속장치와 맞지 않아 ResNet에서 가장 성능이 잘나왔다. ViT는 standard Transformer를 image에 바로 적용하...
사전 지식 1) 기존 Seq2Seq모델들의 한계점 위 사진처럼 모든 문장의 정보를 context vector “v”에 담고 있기 때문에 병목현상이 발생한다. 디코더가 context vector를 매번 참고할 수 있도록 만들었지만 “v”는 여전히 고정되어 병목현상이 발생한다. 2) Seq2Seq with Attention Deco...