Ch6.1 Image Classification을 위한 Neural Network(AlexNet)
AlexNet의 구조 AlexNet은 Convolutional layer에서 Activation function으로 ReLU함수를 사용한다. GPU-1은 color와 상관없는 정보를 추출하기 위한 커널이 학습되고, GPU-2는 주로 color와 관련된 정보를 추출하기 위한 커널이 학습된다. 실습 이전의 LeNet과 Training, Tes...
AlexNet의 구조 AlexNet은 Convolutional layer에서 Activation function으로 ReLU함수를 사용한다. GPU-1은 color와 상관없는 정보를 추출하기 위한 커널이 학습되고, GPU-2는 주로 color와 관련된 정보를 추출하기 위한 커널이 학습된다. 실습 이전의 LeNet과 Training, Tes...
Convolutional Neural Network 구조를 최초로 개발한 구조. C1: 5x5 Filter로 Convolution연산을 진행하여, 28x28 feature map 6개를 생성한다. S2: Pooling layer로 Down sampling을 하여 feature map의 크기를 14x14로 줄인다. C3: 5x5 Convolut...
Abstract Video에서 Ground Truth label을 얻는 것은 challenge하다.(pixel-wise label을 수작업으로 annotation하는 것은 힘들기 때문) 게다가, synthetic dataset으로 학습된 모델을 real-world에 적용하는 기존 방법은 domain차이로 인해 필연적으로 성능이 떨어질 수...
Deep learning기반의 모델을 제대로 훈련시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 충분히 큰 데이터셋을 확보하는 것은 돈과 시간이 많이 들기 때문에 쉽지 않다. 이것의 해결방법이 Transfer Learning이다. ImageNet과 같은 큰 데이터셋을 사용하여 훈련된 모델의 가중치를 가져와 목적에 맞게 보정하여 사용하는 것을 Tr...
Challenge 배경 자율주행은 다양한 센서들을 사용해 주변 상황을 인식하고 이를 바탕으로 차량을 제어하게 됩니다. 카메라 센서의 경우, 장착 위치, 센서의 종류, 주행 환경 등에 따라 영상간의 격차(Domain Gap)가 발생합니다. 그간 여러 선행 연구에서는 이미지의 광도와 질감(Photometry and Texture) 격차에 의한 인식 성능 ...
fashion_mnist 데이터셋을 사용하여 CNN을 직접 구현해보자. [Fashion_mnist Dataset] fashion_mnist 데이터셋은 토치비전(torchvision)에 내장된 예제 데이터로 운동화, 셔츠, 샌들 같은 작은 이미지의 모음이며, 기본 MNIST 데이터셋처럼 열 가지로 분류될 수 있는 28×28 픽셀의 이미지 7만 개로 ...
5.1 Convolutional Neural Network Ch4에서 배운 deep learning의 back propagation을 생각해보자면, forward propagation과정에 따라 계산된 오차 정보가 Neural Network의 모든 node(output layer->hidden layer->input layer)로 전송된다...
딥러닝 알고리즘은 Deep Neural Network를 사용한다. 머신러닝 알고리즘과 마찬가지로 목적에따라 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network) 등으로 나뉜다. 4.3...
4.1 Artificial Neural Network(인공신경망)의 한계와 Deep Learning Perceptron(퍼셉트론): input layer, output layer, weight로 구성된 구조, 다수의 입력을 하나의 값으로 출력(Deep learning의 기원) 위 그림 예시에서 AND나 OR 게이트는 (x1,x2)값에 따라 선형적...
price(자동차 가격) maint(자동차 유지 비용) doors(자동차 문 개수) persons(수용 인원) lug_capacity(수하물 용량) safety(안전성) output(차 상태): 이 데이터는 unacc(허용 불가능한...
2.1 파이토치 개요 Pytorch를 사용하는 이유 • 넘파이를 대체하면서 GPU를 이용한 연산이 필요한 경우 • 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우 하지만 무엇보다 주목받는 이유 중 하나는 간결하고 빠른 구현성에 있습니다. 2.1.1 파이토치 특징 및 장점 파이토치 특징: GPU에서 텐서 조작 및 동적 신경망...
주제: Latent Diffusion Models를 이용한 Crowd Counting (Crowd Counting Using Diffusion-Based Latent Space) 기간: 2023/2/27 - 2023/6/23 주제 선정 배경 당시 이태원 압사 사고로 인해 Crowd Counting 기술에 대한 관심도가 커졌다. 나도 연구실 인...
1. 금일 실습(HDR)을 수행하고 입력 영상들과 결과 영상(임의의 톤 맵 사용)의 히스토그램 분석(grayscale로 변환)을 통해 HDR의 효과를 분석할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 ...
1. 직접 촬영한 영상 세 장으로 panorama stitching을 수행해볼 것 ❑ 금일 실습 두 가지 방법을 각각 적용하고 분석할 것 ❑ Tip. 주변 대상이 적어도 5m 이상 떨어져 있고 특징점이 많이 추출될 수있는 장면에서 수행할 것 1-1) 코드 #include <iostream> #include<sstream> #i...
1. getRotationMatrix()과 동일한getMyRotationMatrix()함수를 직접 구현하고 두 결과가 동일한지 검증하라 ❑ Scale 변화는 구현하지 않아도 됨 ❑ 45도 변화 결과가 동일한지 비교하면 됨 1-1) 코드 #include <iostream> #include<sstream> #include "ope...
1. coin.png의 동전 개수를 알아내는 프로그램을 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/hig...
1. Mean-shift OpenCV와 low-level 구현 2개 적용해보고 결과 분석 Mean-shift OpenCV 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure ...
1. 임의의 과일 사진을 입력했을 때 해당 과일의 색을 문자로 출력하고 과일 영역을 컬러로 정확히 추출하는 코드를 구현 (BGR to HSV와 inRange() 함수는 직접 구현할 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" ...
1. salt_pepper2.png에 대해서 3x3, 5x5의 Mean 필터를 적용해보고 결과를 분석할 것 (잘 나오지 않았다면 그 이유와 함께 결과를 개선해볼 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat clas...
1. img1.jpg에 band pass filter를 적용할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/...
X Decoder(Generalized Decoding for Pixel, Image, and Language) Abstract [Abstract 번역] 해당 논문에서는 X-Decoder라는 모델을 제안하며, 이 모델은 픽셀 수준의 세그멘테이션과 언어 토큰을 예측할 수 있는 일반화된 디코딩 모델입니다. X-Decoder는 두 가지 종류의 ...
▪ 9x9 Gaussian filter를 구현하고 결과를 확인할 것 ▪ 9x9 Gaussian filter를 적용했을 때 히스토그램이 어떻게 변하는지 확인할 것 ▪ 영상에 Salt and pepper noise를 주고, 구현한 9x9 Gaussian filter를 적용해볼 것 [Code] #include <iostream> #includ...
Label Decoupling Framework for Salient Object Detection 더 정확한 saliency map을 얻기 위해서, 최근 방법들은 fully-convolutional network(FCN)을 통해 multi-level feature들을 종합하고, auxiliary(보조의) supervision을 위한 edg...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Latent Diffusion Models Github 해당 논문을 자세히 공부하게 된 이유(흥미로웠던 부분) ⇒대략적으로 살펴보았을 때, RGB에서 Depth map을 추정하고, 그 추정한 Depth...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Image Translation for Person Re-Identification in Multispectral Dataset 아래 논문(ThermalGAN)은 RGB를 GAN을 활용하여 Therma...
[Multilevel Gated Collaborative Network for RGB-D Semantic Segmentation of Indoor Scene] 실내 RGB-D semantic segmentation은 오래 동안 연구주제로 이어져오고 있다 하지만 modal 정보의 본질적인 차이와 multi-level feature cue의...
논문은 Multimodal Recurrent Neural Netwoks(RNNs)라는 RGB-D scene Semantic Segmentation을 위해 새로운 방법을 제안한다. 이 Network는 RGB color channels와 Depth maps가 Input Source로 주어지면 Image pixel을 분류하는 것에 최적화되어있습...
[Application of Multi-modal Fusion Attention Mechanism in Semantic Segmentation] Deep learning algorithm의 발전으로 Semantic Segmentation의 어려움은 연구자들에게 흥미로운 주제로 다시 다가왔다. 논문의 연구는 RGB-D image를 inpu...
[Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation] Depth information은 RGB-D Semantic Segmentation에서 RGB representation에 대...
[RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation] RGB-D data를 쓰는 multi-class indoor semantic segmentation에서 RGB feature에 depth feature를 포함시키는 것은 Segmentatio...
[Uncertainty-aware Cross-modal Transformer Network for Indoor RGB-D Semantic Segmentation] [요약] RGB-D Semantic Segmentation에서 1)depth sensor data에서 Feature를 추출하는 방법과 2)두 개의 양식에서 추출된 feature들을 효...
[Spatial information Guided convolutionalNetwork] Abstract S-Conv is competent to infer the sampling offset of the convolution kernel guided by the 3D spatial information, helping the convoluti...
[Two-Stage Cascaded Decoder for Semantic Segmentation of RGB-D Images] Cascaded Decoder는 계단식, 즉 단계적인 Decoder를 의미하는 것이라고 생각했다 [구글해석] RGB 및 깊이 정보를 활용하면 시맨틱 분할의 성능을 높일 수 있습니다. 그러나 RGB 영상과 ...
특징 Multi-Scale Feature를 output으로 하는 계층적인 구조의 Transformer Encoder사용 ⇒ ViT와 다르게 Positional Encoding을 사용하지 않는다. 복잡한 Decoder를 사용하지 않고, MLP로만 이루어진 MLP decoder를 사용 ⇒ Encoder에서 얻은 Multi-Scale ...
1. Introduction NLP에서 Transformer의 성공에 영향을 받아 Computer Vision분야에서 Self-Attention을 적용한 CNN architecture를 개발하였지만 하드웨어의 가속장치와 맞지 않아 ResNet에서 가장 성능이 잘나왔다. ViT는 standard Transformer를 image에 바로 적용하...
사전 지식 1) 기존 Seq2Seq모델들의 한계점 위 사진처럼 모든 문장의 정보를 context vector “v”에 담고 있기 때문에 병목현상이 발생한다. 디코더가 context vector를 매번 참고할 수 있도록 만들었지만 “v”는 여전히 고정되어 병목현상이 발생한다. 2) Seq2Seq with Attention Deco...