Ch2 실습환경 설정과 파이토치 기초
2.1 파이토치 개요 Pytorch를 사용하는 이유 • 넘파이를 대체하면서 GPU를 이용한 연산이 필요한 경우 • 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우 하지만 무엇보다 주목받는 이유 중 하나는 간결하고 빠른 구현성에 있습니다. 2.1.1 파이토치 특징 및 장점 파이토치 특징: GPU에서 텐서 조작 및 동적 신경망...
2.1 파이토치 개요 Pytorch를 사용하는 이유 • 넘파이를 대체하면서 GPU를 이용한 연산이 필요한 경우 • 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우 하지만 무엇보다 주목받는 이유 중 하나는 간결하고 빠른 구현성에 있습니다. 2.1.1 파이토치 특징 및 장점 파이토치 특징: GPU에서 텐서 조작 및 동적 신경망...
주제: Latent Diffusion Models를 이용한 Crowd Counting (Crowd Counting Using Diffusion-Based Latent Space) 기간: 2023/2/27 - 2023/6/23 주제 선정 배경 당시 이태원 압사 사고로 인해 Crowd Counting 기술에 대한 관심도가 커졌다. 나도 연구실 인...
1. 금일 실습(HDR)을 수행하고 입력 영상들과 결과 영상(임의의 톤 맵 사용)의 히스토그램 분석(grayscale로 변환)을 통해 HDR의 효과를 분석할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 ...
1. 직접 촬영한 영상 세 장으로 panorama stitching을 수행해볼 것 ❑ 금일 실습 두 가지 방법을 각각 적용하고 분석할 것 ❑ Tip. 주변 대상이 적어도 5m 이상 떨어져 있고 특징점이 많이 추출될 수있는 장면에서 수행할 것 1-1) 코드 #include <iostream> #include<sstream> #i...
1. getRotationMatrix()과 동일한getMyRotationMatrix()함수를 직접 구현하고 두 결과가 동일한지 검증하라 ❑ Scale 변화는 구현하지 않아도 됨 ❑ 45도 변화 결과가 동일한지 비교하면 됨 1-1) 코드 #include <iostream> #include<sstream> #include "ope...
1. coin.png의 동전 개수를 알아내는 프로그램을 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/hig...
1. Mean-shift OpenCV와 low-level 구현 2개 적용해보고 결과 분석 Mean-shift OpenCV 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure ...
1. 임의의 과일 사진을 입력했을 때 해당 과일의 색을 문자로 출력하고 과일 영역을 컬러로 정확히 추출하는 코드를 구현 (BGR to HSV와 inRange() 함수는 직접 구현할 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" ...
1. salt_pepper2.png에 대해서 3x3, 5x5의 Mean 필터를 적용해보고 결과를 분석할 것 (잘 나오지 않았다면 그 이유와 함께 결과를 개선해볼 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat clas...
1. img1.jpg에 band pass filter를 적용할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/...
X Decoder(Generalized Decoding for Pixel, Image, and Language) Abstract [Abstract 번역] 해당 논문에서는 X-Decoder라는 모델을 제안하며, 이 모델은 픽셀 수준의 세그멘테이션과 언어 토큰을 예측할 수 있는 일반화된 디코딩 모델입니다. X-Decoder는 두 가지 종류의 ...
▪ 9x9 Gaussian filter를 구현하고 결과를 확인할 것 ▪ 9x9 Gaussian filter를 적용했을 때 히스토그램이 어떻게 변하는지 확인할 것 ▪ 영상에 Salt and pepper noise를 주고, 구현한 9x9 Gaussian filter를 적용해볼 것 [Code] #include <iostream> #includ...
Label Decoupling Framework for Salient Object Detection 더 정확한 saliency map을 얻기 위해서, 최근 방법들은 fully-convolutional network(FCN)을 통해 multi-level feature들을 종합하고, auxiliary(보조의) supervision을 위한 edg...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Latent Diffusion Models Github 해당 논문을 자세히 공부하게 된 이유(흥미로웠던 부분) ⇒대략적으로 살펴보았을 때, RGB에서 Depth map을 추정하고, 그 추정한 Depth...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Image Translation for Person Re-Identification in Multispectral Dataset 아래 논문(ThermalGAN)은 RGB를 GAN을 활용하여 Therma...
[Multilevel Gated Collaborative Network for RGB-D Semantic Segmentation of Indoor Scene] 실내 RGB-D semantic segmentation은 오래 동안 연구주제로 이어져오고 있다 하지만 modal 정보의 본질적인 차이와 multi-level feature cue의...
논문은 Multimodal Recurrent Neural Netwoks(RNNs)라는 RGB-D scene Semantic Segmentation을 위해 새로운 방법을 제안한다. 이 Network는 RGB color channels와 Depth maps가 Input Source로 주어지면 Image pixel을 분류하는 것에 최적화되어있습...
[Application of Multi-modal Fusion Attention Mechanism in Semantic Segmentation] Deep learning algorithm의 발전으로 Semantic Segmentation의 어려움은 연구자들에게 흥미로운 주제로 다시 다가왔다. 논문의 연구는 RGB-D image를 inpu...
[Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation] Depth information은 RGB-D Semantic Segmentation에서 RGB representation에 대...
[RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation] RGB-D data를 쓰는 multi-class indoor semantic segmentation에서 RGB feature에 depth feature를 포함시키는 것은 Segmentatio...
[Uncertainty-aware Cross-modal Transformer Network for Indoor RGB-D Semantic Segmentation] [요약] RGB-D Semantic Segmentation에서 1)depth sensor data에서 Feature를 추출하는 방법과 2)두 개의 양식에서 추출된 feature들을 효...
[Spatial information Guided convolutionalNetwork] Abstract S-Conv is competent to infer the sampling offset of the convolution kernel guided by the 3D spatial information, helping the convoluti...
[Two-Stage Cascaded Decoder for Semantic Segmentation of RGB-D Images] Cascaded Decoder는 계단식, 즉 단계적인 Decoder를 의미하는 것이라고 생각했다 [구글해석] RGB 및 깊이 정보를 활용하면 시맨틱 분할의 성능을 높일 수 있습니다. 그러나 RGB 영상과 ...
특징 Multi-Scale Feature를 output으로 하는 계층적인 구조의 Transformer Encoder사용 ⇒ ViT와 다르게 Positional Encoding을 사용하지 않는다. 복잡한 Decoder를 사용하지 않고, MLP로만 이루어진 MLP decoder를 사용 ⇒ Encoder에서 얻은 Multi-Scale ...
1. Introduction NLP에서 Transformer의 성공에 영향을 받아 Computer Vision분야에서 Self-Attention을 적용한 CNN architecture를 개발하였지만 하드웨어의 가속장치와 맞지 않아 ResNet에서 가장 성능이 잘나왔다. ViT는 standard Transformer를 image에 바로 적용하...
사전 지식 1) 기존 Seq2Seq모델들의 한계점 위 사진처럼 모든 문장의 정보를 context vector “v”에 담고 있기 때문에 병목현상이 발생한다. 디코더가 context vector를 매번 참고할 수 있도록 만들었지만 “v”는 여전히 고정되어 병목현상이 발생한다. 2) Seq2Seq with Attention Deco...