Postech 24-SURF 연구 노트3
“연구를 진행한 결과에 대한 정리” Robot Manipulation
“연구를 진행한 결과에 대한 정리” Robot Manipulation
“연구를 진행한 결과에 대한 정리” Robot Manipulation
“Understanding Diffusion Models: A Unified Perspective” 논문을 바탕으로 공부한 정리 노트 수식을 직접 써보며 유도 과정을 이해하기 위함이지만, 완벽하게 이해한 것은 아니다. 따라서 이후에 추가적인 복습이 필요하다.
“Understanding Diffusion Models: A Unified Perspective” 논문을 바탕으로 공부한 정리 노트 수식을 직접 써보며 유도 과정을 이해하기 위함이지만, 완벽하게 이해한 것은 아니다. 따라서 이후에 추가적인 복습이 필요하다.
“연구를 진행한 결과에 대한 정리” Optimization Task
“Understanding Diffusion Models: A Unified Perspective” 논문을 바탕으로 공부한 정리 노트 수식을 직접 써보며 유도 과정을 이해하기 위함이지만, 완벽하게 이해한 것은 아니다. 따라서 이후에 추가적인 복습이 필요하다.
“연구를 진행하며 정리한 공부 내용과 생각들” 1/22: 무조건 “ffmpeg”를 사용할 때에는 아래 옵션 ‘copy’를 사용해야 한다. ffmpeg로 clip을 딸 때는 인코딩이 되지 않는다는 정보를 봐서 안되는 줄 알았는데, 되고 있었다. 화질이 정말 많이 안좋아지고, 속도도 느렸다. (아래 옵션을 주니, clip을 만드는데 1분도 안걸...
“연구를 진행하며 정리한 공부 내용과 생각들” “Data collecting pipeline” 1. youtube_script_api사용하여, script정보로 json파일 생성 youtube script에서 정보를 처리하는 코드 작성 유튜브 채널의 id를 이용해서, 채널 내의 모든 동영상에 대한 id를 알 수 있고, 동...
“연구를 진행하며 정리한 공부 내용과 생각들” 1/15: 1. Neutral Talk에 대한 Training 2. ‘Dyadic conversation에서 발생하는’ sound가 동반된 non-verbal signals에 대해서 training(Data취득이 다소 어려울 것으로 판단) 또는 Rich Emotion Video에 대해 trainin...
“연구를 진행하며 정리한 공부 내용과 생각들” 1/11, 12: 연구 방향성 바뀜(1/12 교수님과의 미팅준비) 기본적으로 ‘audio-driven 3D talking head generation’인 것은 동일하다. 이 때 연구의 방향성은 이전 상황에 대한 정보가 주어졌을 때, 이후의 speech에 대한 3D talking head에 변화가 유의미...
“연구를 진행하며 정리한 공부 내용과 생각들” 1주차(1월8일-14일): EMOCA, SPECTRE 등 코드 한번씩 돌려보면서 코드 파악하기 모델이 어떻게 구성되어 있고, FLAME 파라미터가 어떤식으로 추출되는지 (dimension 등등) 직접 파라미터 값 바꿔보기 (shape, expression,...
“연구를 진행하며 정리한 공부 내용과 생각들” To do List (연구참여 오기전까지) 3D talking head 쪽 연구 찾아보기 ⇒ google schalor에서 인용된 논문들 찾아보기(2, 3개정도 더) Sad Talker, Shouting Talker 등 이미 있는 기술들이 있을 수 있다. 만약 존재하는 논문이라면, 여기서 가져가야...
Abstract ‘Laughter’는 고유한 expression이다.(긍정적 interaction에 필수적임) 최근 ‘3D talking generation method’들은 그럴듯한 ‘verbal articulations’를 만들어내지만, ‘vitality’와 ‘laughter, smiles’의 세부사항들을 capture하는 것에 실패...
Figure 1 ‘audio input’과 ‘emotion label’이 주어졌을 때, “EMOTE”는 ‘emotion’을 표현하면서 SOTA ‘lip synchronization’을 갖는 ‘animated 3D head’를 생성한다. EMOTE는 새로운 ‘video emotion loss’와 ‘speech’로부터 emotion을 d...
Abstract ‘Speech-driven 3D face animation’은 ‘speech content’와 ‘emotion’에 matching되는 사실적인 ‘facial expressions’ 만드는 것이 목적이다. 하지만, 기존 method들은 ‘emotional facial expressions’를 소홀히 하거나, ‘speech ...
Abstract ‘audio-driven 3D facial animation’은 널리 연구되고 있지만, ‘human-like performance’는 여전히 해결되지 않았다. ⇒ 사용 가능한 ‘3D dataset’, ‘models’, ‘standard evaluation metrics’가 부족하기 때문 위 문제를 해결하기 위해 60f...
Abstract 기존 연구들은 ‘facial expression’을 전부 capture하지 못한다. 논문은 training에 사용되는 ‘standard reconstruction metrics’(landmark reprojection error, photometric error, face recognition loss)가 높은 정확도의 ...
3D face modeling 분야는 ‘high-end method’와 ‘low-end method’ 간의 큰 차이가 있다. ⇒ ’high-end method’에서는 실제 사람과 best facial animation이 구별되지 않지만, cost가 크다.(수동으로 조작해야 하는 것이 많다) ⇒ ‘low-end method’는 일반적인 ...
Abstract “Speech-driven 3D facial animation”은 human faces의 복잡한 geometry와 3D audio-visual data의 한정된 가용성으로 인해 challenge하다. 이전 연구들은 보통 한정된 context를 통해 짧은 audio window(순간)들의 phoneme(음소: 소리의 가장 ...
Abstract Deep Learning 덕분에, 최근 image data에서의 monocular 3D face reconstruction분야의 SOTA 모델은 많은 발전을 이루고 있다. 하지만, 대부분 single RGB image를 input으로 사용하는 것에 초점을 두고 있다. 다음 중요한 요소들은 간과하는 경향이 있다. a...
Abstract 기존 monocular 3D face reconstruction method는 geometric details를 꽤 잘 복원하지만, 몇몇의 한계점이 존재한다. → 몇몇의 method들은 expression(표정)에 따라 주름이 어떻게 변화하는지 modeling하지 않기 때문에 사실적으로 움직이지 못하는 face를 생성한다. ...
ResNet Residual 개념을 처음으로 고안한 Network이다. Neural Network가 깊어질수록 deep learning성능이 좋아질 것 같지만, 그렇지 않다. 따라서 이 문제를 해결하기 위해 Residual block을 도입하였다. residual block은 skip connection을 만들어준다. 위 방식을 통해 G...
VGGNet 3x3 kernel만을 convolution layer에 사용 실제 코드는 VGG11 model로 구현해자. 라이브러리 import copy import numpy as np import torch import torch.nn as nn import torch.nn.functional as F import torch.opt...
AlexNet의 구조 AlexNet은 Convolutional layer에서 Activation function으로 ReLU함수를 사용한다. GPU-1은 color와 상관없는 정보를 추출하기 위한 커널이 학습되고, GPU-2는 주로 color와 관련된 정보를 추출하기 위한 커널이 학습된다. 실습 이전의 LeNet과 Training, Tes...
Convolutional Neural Network 구조를 최초로 개발한 구조. C1: 5x5 Filter로 Convolution연산을 진행하여, 28x28 feature map 6개를 생성한다. S2: Pooling layer로 Down sampling을 하여 feature map의 크기를 14x14로 줄인다. C3: 5x5 Convolut...
Abstract Video에서 Ground Truth label을 얻는 것은 challenge하다.(pixel-wise label을 수작업으로 annotation하는 것은 힘들기 때문) 게다가, synthetic dataset으로 학습된 모델을 real-world에 적용하는 기존 방법은 domain차이로 인해 필연적으로 성능이 떨어질 수...
Deep learning기반의 모델을 제대로 훈련시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 충분히 큰 데이터셋을 확보하는 것은 돈과 시간이 많이 들기 때문에 쉽지 않다. 이것의 해결방법이 Transfer Learning이다. ImageNet과 같은 큰 데이터셋을 사용하여 훈련된 모델의 가중치를 가져와 목적에 맞게 보정하여 사용하는 것을 Tr...
Challenge 배경 자율주행은 다양한 센서들을 사용해 주변 상황을 인식하고 이를 바탕으로 차량을 제어하게 됩니다. 카메라 센서의 경우, 장착 위치, 센서의 종류, 주행 환경 등에 따라 영상간의 격차(Domain Gap)가 발생합니다. 그간 여러 선행 연구에서는 이미지의 광도와 질감(Photometry and Texture) 격차에 의한 인식 성능 ...
fashion_mnist 데이터셋을 사용하여 CNN을 직접 구현해보자. [Fashion_mnist Dataset] fashion_mnist 데이터셋은 토치비전(torchvision)에 내장된 예제 데이터로 운동화, 셔츠, 샌들 같은 작은 이미지의 모음이며, 기본 MNIST 데이터셋처럼 열 가지로 분류될 수 있는 28×28 픽셀의 이미지 7만 개로 ...
5.1 Convolutional Neural Network Ch4에서 배운 deep learning의 back propagation을 생각해보자면, forward propagation과정에 따라 계산된 오차 정보가 Neural Network의 모든 node(output layer->hidden layer->input layer)로 전송된다...
딥러닝 알고리즘은 Deep Neural Network를 사용한다. 머신러닝 알고리즘과 마찬가지로 목적에따라 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network) 등으로 나뉜다. 4.3...
4.1 Artificial Neural Network(인공신경망)의 한계와 Deep Learning Perceptron(퍼셉트론): input layer, output layer, weight로 구성된 구조, 다수의 입력을 하나의 값으로 출력(Deep learning의 기원) 위 그림 예시에서 AND나 OR 게이트는 (x1,x2)값에 따라 선형적...
price(자동차 가격) maint(자동차 유지 비용) doors(자동차 문 개수) persons(수용 인원) lug_capacity(수하물 용량) safety(안전성) output(차 상태): 이 데이터는 unacc(허용 불가능한...
2.1 파이토치 개요 Pytorch를 사용하는 이유 • 넘파이를 대체하면서 GPU를 이용한 연산이 필요한 경우 • 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우 하지만 무엇보다 주목받는 이유 중 하나는 간결하고 빠른 구현성에 있습니다. 2.1.1 파이토치 특징 및 장점 파이토치 특징: GPU에서 텐서 조작 및 동적 신경망...
주제: Latent Diffusion Models를 이용한 Crowd Counting (Crowd Counting Using Diffusion-Based Latent Space) 기간: 2023/2/27 - 2023/6/23 주제 선정 배경 당시 이태원 압사 사고로 인해 Crowd Counting 기술에 대한 관심도가 커졌다. 나도 연구실 인...
1. 금일 실습(HDR)을 수행하고 입력 영상들과 결과 영상(임의의 톤 맵 사용)의 히스토그램 분석(grayscale로 변환)을 통해 HDR의 효과를 분석할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 ...
1. 직접 촬영한 영상 세 장으로 panorama stitching을 수행해볼 것 ❑ 금일 실습 두 가지 방법을 각각 적용하고 분석할 것 ❑ Tip. 주변 대상이 적어도 5m 이상 떨어져 있고 특징점이 많이 추출될 수있는 장면에서 수행할 것 1-1) 코드 #include <iostream> #include<sstream> #i...
1. getRotationMatrix()과 동일한getMyRotationMatrix()함수를 직접 구현하고 두 결과가 동일한지 검증하라 ❑ Scale 변화는 구현하지 않아도 됨 ❑ 45도 변화 결과가 동일한지 비교하면 됨 1-1) 코드 #include <iostream> #include<sstream> #include "ope...
1. coin.png의 동전 개수를 알아내는 프로그램을 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/hig...
1. Mean-shift OpenCV와 low-level 구현 2개 적용해보고 결과 분석 Mean-shift OpenCV 구현 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure ...
1. 임의의 과일 사진을 입력했을 때 해당 과일의 색을 문자로 출력하고 과일 영역을 컬러로 정확히 추출하는 코드를 구현 (BGR to HSV와 inRange() 함수는 직접 구현할 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" ...
1. salt_pepper2.png에 대해서 3x3, 5x5의 Mean 필터를 적용해보고 결과를 분석할 것 (잘 나오지 않았다면 그 이유와 함께 결과를 개선해볼 것) 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat clas...
1. img1.jpg에 band pass filter를 적용할 것 1-1) 코드 #include <iostream> #include<sstream> #include "opencv2/core/core.hpp" // Mat class와 각종 data structure 및 산술 루틴을 포함하는 헤더 #include "opencv2/...
X Decoder(Generalized Decoding for Pixel, Image, and Language) Abstract [Abstract 번역] 해당 논문에서는 X-Decoder라는 모델을 제안하며, 이 모델은 픽셀 수준의 세그멘테이션과 언어 토큰을 예측할 수 있는 일반화된 디코딩 모델입니다. X-Decoder는 두 가지 종류의 ...
▪ 9x9 Gaussian filter를 구현하고 결과를 확인할 것 ▪ 9x9 Gaussian filter를 적용했을 때 히스토그램이 어떻게 변하는지 확인할 것 ▪ 영상에 Salt and pepper noise를 주고, 구현한 9x9 Gaussian filter를 적용해볼 것 [Code] #include <iostream> #includ...
Label Decoupling Framework for Salient Object Detection 더 정확한 saliency map을 얻기 위해서, 최근 방법들은 fully-convolutional network(FCN)을 통해 multi-level feature들을 종합하고, auxiliary(보조의) supervision을 위한 edg...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Latent Diffusion Models Github 해당 논문을 자세히 공부하게 된 이유(흥미로웠던 부분) ⇒대략적으로 살펴보았을 때, RGB에서 Depth map을 추정하고, 그 추정한 Depth...
[Capstone Design을 하면서 아이디어를 얻기 위해 논문을 읽었다. 아이디어를 얻기 위해 정리하는 것이다보니 주관적인 생각이 많다.] Image Translation for Person Re-Identification in Multispectral Dataset 아래 논문(ThermalGAN)은 RGB를 GAN을 활용하여 Therma...
[Multilevel Gated Collaborative Network for RGB-D Semantic Segmentation of Indoor Scene] 실내 RGB-D semantic segmentation은 오래 동안 연구주제로 이어져오고 있다 하지만 modal 정보의 본질적인 차이와 multi-level feature cue의...
논문은 Multimodal Recurrent Neural Netwoks(RNNs)라는 RGB-D scene Semantic Segmentation을 위해 새로운 방법을 제안한다. 이 Network는 RGB color channels와 Depth maps가 Input Source로 주어지면 Image pixel을 분류하는 것에 최적화되어있습...
[Application of Multi-modal Fusion Attention Mechanism in Semantic Segmentation] Deep learning algorithm의 발전으로 Semantic Segmentation의 어려움은 연구자들에게 흥미로운 주제로 다시 다가왔다. 논문의 연구는 RGB-D image를 inpu...
[Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation] Depth information은 RGB-D Semantic Segmentation에서 RGB representation에 대...
[RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation] RGB-D data를 쓰는 multi-class indoor semantic segmentation에서 RGB feature에 depth feature를 포함시키는 것은 Segmentatio...
[Uncertainty-aware Cross-modal Transformer Network for Indoor RGB-D Semantic Segmentation] [요약] RGB-D Semantic Segmentation에서 1)depth sensor data에서 Feature를 추출하는 방법과 2)두 개의 양식에서 추출된 feature들을 효...
[Spatial information Guided convolutionalNetwork] Abstract S-Conv is competent to infer the sampling offset of the convolution kernel guided by the 3D spatial information, helping the convoluti...
[Two-Stage Cascaded Decoder for Semantic Segmentation of RGB-D Images] Cascaded Decoder는 계단식, 즉 단계적인 Decoder를 의미하는 것이라고 생각했다 [구글해석] RGB 및 깊이 정보를 활용하면 시맨틱 분할의 성능을 높일 수 있습니다. 그러나 RGB 영상과 ...
특징 Multi-Scale Feature를 output으로 하는 계층적인 구조의 Transformer Encoder사용 ⇒ ViT와 다르게 Positional Encoding을 사용하지 않는다. 복잡한 Decoder를 사용하지 않고, MLP로만 이루어진 MLP decoder를 사용 ⇒ Encoder에서 얻은 Multi-Scale ...
1. Introduction NLP에서 Transformer의 성공에 영향을 받아 Computer Vision분야에서 Self-Attention을 적용한 CNN architecture를 개발하였지만 하드웨어의 가속장치와 맞지 않아 ResNet에서 가장 성능이 잘나왔다. ViT는 standard Transformer를 image에 바로 적용하...
사전 지식 1) 기존 Seq2Seq모델들의 한계점 위 사진처럼 모든 문장의 정보를 context vector “v”에 담고 있기 때문에 병목현상이 발생한다. 디코더가 context vector를 매번 참고할 수 있도록 만들었지만 “v”는 여전히 고정되어 병목현상이 발생한다. 2) Seq2Seq with Attention Deco...