전체 글 15

LSTM, GRU

https://rokart.tistory.com/entry/RNNRecurrent-Neural-Network RNN(Recurrent Neural Network)대학원 때 공부했던 인공지능, 데이터 분석 쪽 과목들을 복습하면서 정리해보려고 한다.디테일보다는 큰 개념 위주로 간단하게 다뤄보고자 한다. 0. 개요 첫 번째로 다뤄보고자 하는 주제는 RNN(Rrokart.tistory.com RNN의 경우 Sequential Data가 길어질 수록 앞쪽에 있던 값들이 제대로 반영되지 않는 구조적인 문제점을 가지고 있었다. 이번에는 이를 개선하기 위해 나온 LSTM과 GRU에 대해서 알아보자. 0. 개요 위 그림은 기본적인 RNN과 LSTM, GRU의 구조적 차이를 보여준다. 기존에는 activation 함수 하..

대학원 복습/AI 2025.07.11

RNN(Recurrent Neural Network)

대학원 때 공부했던 인공지능, 데이터 분석 쪽 과목들을 복습하면서 정리해보려고 한다.디테일보다는 큰 개념 위주로 간단하게 다뤄보고자 한다. 0. 개요 첫 번째로 다뤄보고자 하는 주제는 RNN(Recurrent Neural Network)이다. RNN은 현재 LLM 모델의 근간이 되는 구조로서 중요하며, 기존의 신경망과는 다른 방향성을 가지고 있어 이해가 갑자기 어려워지는 지점이 되기도 한다. 1. Sequential Data (순차 데이터)RNN을 이해하기 위해서는 먼저 RNN 구조가 설계된 이유인 Sequential Data에 대해서 알고있어야 한다. 이전의 모델들은 입력 간 상관관계르 고려하지 않았다. 간단한 이미지 분류 모델을 예로 들어보자. '고양이 이미지'를 입력으로 받았다. 모델이 전에 '개 ..

대학원 복습/AI 2025.07.04

DeepSORT

Object Tracking의 대표적인 논문 중 하나인 DeepSORT에 대해서 다루어보려고 한다. 논문 링크: https://arxiv.org/pdf/1703.07402 0. SORT(Simple Online and Realtime Tracking) 먼저 기반이되는 SORT에 대해서 간단하게 알아보자. SORT는 복수 객체 추적(MOT: Multiple Object Tracking)을 실시간으로 구현하기 위하여 설계된 시스템이다. 프레임마다 등장하는 객체 탐지 결과인 bounding box를 입력으로 받아, 각 객체에 일관된 ID를 부여하여 추적하는 방식을 사용한다. SORT의 구조는 크게 3가지로 볼 수 있다 객체 탐지 (Detection)• 객체는 매 프레임마다 외부 Classifier(예: Fa..

논문 & 기술 2025.05.01

YOLO

YOLO(You Only Look One)는 객체 탐지를 하나의 회귀 문제로 만드는 접근으로 기존 객체 탐지 모델에 비해 획기적인 속도 향상을 만들어 낸 모델로. 이후에도 개선된 버전으로 지속적으로 연구가 이어지며 현재까지도 활발하게 사용되고 있다. 논문링크 : https://arxiv.org/pdf/1506.02640v5 1. 서론객체 탐지의 궁극적인 목표는 사람처럼 이미지를 한번만 훑는 것만으로 어떤 객체가 어디어 어떻게 상호작용하는지 즉시 파악하는 것이다. 기존의 객체 탐지 시스템은 Classifer를 변형시켜 Detection을 수행한다. 예를 들어 DPM의 경우 슬라이딩 윈도우 방식으로 Classifier를 전체 이미지에 걸쳐 반복해서 적용한다. 좀 더 최근 방식인 R-CNN의 경우 먼저 객체..

논문 & 기술 2025.05.01

Faster R-CNN

Faster R-CNN은 객체 탐지 분야에서 획기적인 발전을 이끈 논문으로, 기존의 Region Proposal 방식을 Region Proposal Network(RPN)이라는 CNN 기반 방식으로 대체하여, 탐지 속도를 크게 향상 시키면서도 정확도 역시 유지 / 개선하였다. 본인의 이해를 위해서 작성했기 때문에 기존 논문의 순서와 구성과는 다르다는 점 참고바란다. Faster R-CNN 논문https://arxiv.org/pdf/1506.01497v3 이전 R-CNN글을 읽고오면 이해가 훨씬 쉬울 것이다https://rokart.tistory.com/entry/R-CNN R-CNNobject detection에 CNN을 처음 활용한 R-CNN에 대해서 다루어보려고 한다. 이해에 따라 작성하면서 논문의..

논문 & 기술 2025.04.23

R-CNN

object detection에 CNN을 처음 활용한 R-CNN에 대해서 다루어보려고 한다. 이해에 따라 작성하면서 논문의 구성과 달라지는 부분이 있으니 실제 논문을 참고하길 바란다. 논문 링크 : https://arxiv.org/pdf/1311.2524v5 1. 서론기존에는 어떻게 ? 기존에는 전체 이미지에 이동하는 박스(sliding window 방식)로 이미지를 읽어들여 SIFT / HOG 등으로 feature를 추출한 뒤 SVM을 활용하여 해당 박스가 특정 객체인지 분류하는 방식을 사용하였다. 해당 논문에서 이런 기존의 방식들에서 발전이 더 이상 이루어지지 않고 있다고 말하고 있다.그럼 어떻게 ?해당 논문에서는 SIFT / HOG는 생물학적으로 시각 피질(V1)의 세포 반응과 비슷한 구조를 가..

논문 & 기술 2025.04.17

NERF : Representing Scenes as Neural Radiance Fields for View Synthesis

오늘은 NeRF에 대해서 알아본다. NeRF 논문과 관련 기술 동향 확인을 위한 학술지 하나를 참고했다.이해를 위해서 작성했기 때문에 기존 논문의 순서와 구성과는 다를 수 있다.https://arxiv.org/abs/2003.08934v2 NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisWe present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of i..

논문 & 기술 2025.03.26

배치추천 #3 (StyleGAN 관련연구, HIGAN)

사용할 생성형 모델은 정했으니 생성형 모델에서 조명의 특성을 분석하고 시각화할 방법이 필요했다. 이번에는 참고한 연구와 기법에 관해서 다루어 보려고 한다. 프로젝트 진행에 관련되거나 중요한 사항을 중점으로 다룰 예정이니 관련 논문의 정보가 필요하다면 실제 논문을 읽어보는 것을 추천한다. 관련연구레이어 별로 스타일 정보랑 노이즈를 주입하는 styleGAN의 특성상 레이어별로 특성을 해석하고 조작하는 연구들이 많았다. 그 중 활용하게 된 대표적인 연구는 "Semantic Hierarchy Emeges in Deep Generative Representations for Scene Synthesis"이다. 줄여서 HIGAN 이 되겠다.  https://paperswithcode.com/paper/semanti..

배치 추천 #2 (StyleGAN)

기본적인 GAN 모델의 경우 entanglement 문제가 있다는 것을 알게 되었고. 이후에 제안된 개선 모델들에 대해서 알아보게 되었다. 실제 프로젝트에 활용하게 된 모델은 styleGAN이다. StyleGAN(Style-Based GAN)StyleGAN은 기본적인 GAN모델처럼 잠재 벡터를 직접 사용하지 않고, 먼저 Mapping Network를 거쳐 변환된 벡터를 생성자의 레이어들에 독립적으로 반영하는 방식을 사용한다. 이를 통해 생성과정에서 세부적인 특성이 더 명확하게 반영되고, 잠재공간의 특징들이 얽히는 문제가 완화되어 효과적인 속성 조작이 가능해진다.여기까지가 단순한 문과식(?) 설명이고 실제 구조가 어떻게 이루어지는지 살펴보자.   위 그림은 실제 styleGAN은 크게 "mapping n..

Volume rendering

Volume Rendering에 대해서 알아보고자 한다.  Volume Rendering을 3D 데이터를 렌더링(시각화) 하는 하나의 방식이다. 볼륨 렌더링은 그러면 어떤 데이터를 렌더링 하는 것인가? 우리가 기본적으로 사용하는 3D 데이터들은 다음과 같다. 메시(Mesh)메시는 가장 일반적인 3D 모델링 방식으로, 내부가 비어 있으며 3D 오브젝트의 형상을 다각형(Polygon)으로 표현하는 방식이다. 우리가 흔히 접하는 영화나 게임의 3D 그래픽 객체들은 대부분 이 방식으로 제작된다. 메시는 폴리곤(Polygon)을 기반으로 구성되며, 각 폴리곤에는 다음과 같은 속성이 포함된다. • 법선 벡터(Normal Vector): 표면의 방향을 나타내어 빛 반사와 음영(Shading)에 영향을 준다. • 텍스..

논문 & 기술 2025.02.14