전체 글 26

[논문 review] Zero-Shot Text-Guided Object Generation with Dream Fields

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :)지난 시간에 다루었던 Text2Mesh와 같이 text를 이용한 3D 생성 재미를 느껴서 거의 비슷한 시기에 나온 Dream Fields를 공부하게 되었다. IntroductionText2Mesh의 경우, input mesh를 주고, text를 이용하여 이를 스타일링하는 모델이었다. 그러다보니 mesh를 input으로 주어야한다는 불편한 점이 존재했다. 이번 Dream Fields는 처음부터 text를 이용하여 3D 객체를 생성한다는 차이점이 존재한다. 또한 3D dataset은 생성에 많은 비용이 들 supervised learning의 어려움이 있다. 이를 CLIP을 활용한 zero-sho..

3D Vision 2024.08.22

[논문 review] Text2Mesh: Text-Driven Neural Stylization for Meshes

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :) 이번 시간에는 Text2Mesh 모델에 대해서 다루어보겠다. CLIP을 활용하여 text를 입력 받아 mesh에 styling한다.  Introduction이전에도 text를 입력받아 스타일링하는 task가 존재했었다. 예를 들어, Text2Shape (2018.03)의 경우 text를 입력 받아 그에 맞는 3D shape을 출력한다. (정확한 방법론은 이해하지 못했지만 전체적인 흐름을 보자면) text와 shape을 각각 인코딩한 후, T와 S의 유사도를 구하고 이어서 해당 S와 T의 유사도를 구하는 방식으로 round-trip probability (TST)를 구한다. 같은 방식으로  S..

3D Vision 2024.08.08

[논문 review] Human Motion Diffusion Model

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :)  이번 시간에는 human motion diffusion model에 대해서 알아보겠다. 3D 분야에서 대표적으로 쓰이는 모델로서 diffusion을 완전히 이해하지 못해 거시적으로 다뤄보려한다. Introductionmotion generation에 있어서 many-to-many 문제는 항상 뒤따른다. kick이라는 단어는 태권도, 축구 등 다양한 종류의 kick을 암시한다. 또한 태권도 kick이어도 그 킥을 표현하는 motion은 다양하다. 이처럼 같은 말이라도 다양한 행동이 존재한다는 것이 many-to-many problem이다.  이전까지의 연구에서는 Auto Encoder, VA..

3D Vision 2024.07.27

[논문 review] Neural Discrete Representation Learning (VQ-VAE)

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :) 이번에는 ae와 vae를 간단히 다루고 vq-vae로 넘어가겠다. BackgroundAutoEncoder autoencoder(이하 ae) 는 단순히 latent vector z 를 잘 추출하는 것을 목적으로 한다. 해당 network는 reconstructioon loss만을 최소화한다. 즉, 인풋과 디코더의 아웃풋 간의 비교만 진행하는 셈이다. 또한, latent vector의 길이에 영향을 많이 받는다. 길이에 따른 표현의 정도가 다르기 때문이다. ae는 latent 정보를 target 값에 일대일 매핑시키는 방향으로 학습이 된다. 그러다 보니, 오버피팅의 위험도가 높고 새로운 정보에 ..

Basis 2024.07.18

[논문 review] NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :)Introduction기본적인 카메라와 ray에 대한 개념이 있어야 이해하기 쉬울 것 같다. 이에 대한 내용은 CMU graphics 강의 정리에서 다루겠음.논문을 읽을 때 다음 사실을 알고 읽으면 더 편하게 이해가 된다. 해당 논문에서 설명하는 NeRF 모델은 하나의 scene에만 적용이 가능하다. 즉, 드럼 사진에 대해서 학습을 시킨 network는 다른 scene에는 적용을 시킬 수 없는 것이다. (필자는 하나의 network를 학습시키면 모든 scene에 적용할 수 있다고 생각하여 이해가 오래 걸렸다.) NeRF가 어떤 모델인지 간단히 설명하면, 여러 위치에서 찍은 사진을 종합하여 데이..

3D Vision 2024.07.14

[논문 review] SMPL: A Skinned Multi-Person Linear Model

공부 정리용 블로그입니다. 미숙한 실력으로 인해 표현이나 설명에서 많은 오류가 있을 수 있으니 참고 바랍니다 :) Introduction3D Vision human motion 쪽에서 가장 많이 쓰이는 representation은 SMPL 이라고 한다.SMPL은 기존 blend skinning 방식을 변형·사용하였으며, SCAPE에서 발전된 performance를 보인다.(첫 논문 review라서 디테일하게 다루진 않았다.) Main TaskSMPL의 flow는 다음과 같다.shape & pose blend shapes를 이용하여 mesh 구축Joint를 고려하여 mesh와 joint 자연스럽게 연결 (blend skinning) blend skinning인 LBS는 다음과 같은 파라미터로 이루어져 있다..

3D Vision 2024.07.02