'Computer Vision' 카테고리의 글 목록

[5.5] More complex models

5.5.1 Three-dimensional CNNs3D Convolutional Neural Networks (3D CNNs)의 초기모델임.이미지에서 객체를 탐지하고 해당 객체를 3D Mesh로 변환하는 모델임. 5.5.2 Recurrent neural networksRNN은 입력을 반복적으로 처리하면서, 각 단계에서 이전 상태의 출력을 다음 단계 입력으로 넘김. 5.5.3 TransformersTransformer의 핵심인 Self-attention에 대한 그림임. 위 그림은 N = 4인 경우를 보여줌.K와 V는 row-stacked 행렬 / y는 1 x Dattn 행렬임.query 토큰을 기준으로 주변 토큰들과 유사도를 계산함. 그리고 softmax로 다른 토큰들과의 가중치를 만들고, 가중치와 val..

Computer Vision/5. Deep Learning 2025.06.25

[5.4] Convolutional neural networks

CNN은 모든 뉴런이 이전 층의 모든 뉴런와 연결된 FC layer와 다르게 합성곱(convolution) 연산을 사용함.전체 이미지를 한꺼번에 보는 것이 아닌, 작은 지역(local window)만 살펴보며 특징을 추출함. 각 윈도우에서의 연산은 모든 위치에서 동일한 가중치를 사용함.각 층은 여러 개의 특징 맵(Feature Map)을 출력함. 각각의 커널은 특정한 특징(수평,수직등)을 감지하도록 학습됨.그래서 CNN의 초반부는 저수준의 특징을 추출하고, 후반부는 고수준의 특징을 추출하게 되고, 마지막은 FC layer와 softmax를 통해 최종 분류 작업을 수행함.대부분 2D convolution은 입력 채널(C1)과 출력 채널(C2)는 다채널임. 다채널의 convolution의 각 출력 채널은 입..

Computer Vision/5. Deep Learning 2025.06.13

[5.3] Deep neural networks (깊은 신경망)

퍼셉트론의 동작 과정중, 입력값과 가중치의 곱 과정, bias 항의 합, 마지막의 활성 함수의 결과까지 보여줌. 5.3.1 Weights and layersW : 가중치 행렬x : 입력값한 레이어의 입력값에 대한 출력값은 다음 레이어의 입력값이 됨. (fully connected, FC)FC layer로만 구성된 네트워크를 다층 퍼셉트론 (multi-layer perceptron, MLP) 라고함. 5.3.2 Activation FunctionsRectified Linear Units (ReLU) 수식임.입력값과 가중치 행렬의 결과값이 0이하면 ReLU의 값은 0이고, 0보다 크면 그대로 값이 나옴.ReLU는 계산이 간단하다는 장점이 있지만, 입력이 음수가 되면 출력은 0이 나옴.즉, gradient는 ..

Computer Vision/5. Deep Learning 2025.06.08

[4.1] Scattered data interpolation (분산 데이터 보간)

분산 데이터 보간(interpolation)은 위와 같은 연속적이고 부드러운 함수를 만드는데 목표를 갖음.분산 데이터 근사(approximation)는 함수가 데이터 점 근처를 통과하는 것을 목표로 함.책에는 간단한 분산 데이터 보간과 근사에 대한 알고리즘이 나옴.보간 알고리즘에는 Delaunay triangulation, 근사 알고리즘에는 pull-push Delaunay triangulation algorithm은 데이터를 이어서 삼각형으로 만듦.그리고 어떤 점P가 있을때, 해당하는 삼각형 영역 내에서 각 점에 대해 가중치를 부여해 값을 계산함.그래서 점을 정확히 통과하기 때문에 보간 알고리즘임. pull-push algorithm은 그리드를 나누고 그리드 안에 각 데이터가 있음.하위의 더 낮은 해상..

Computer Vision/4. Model fitting and optimization 2025.06.06

[5.2] Unsupervised learning (비지도학습)

5.2.2 K-means and Gaussians mixture models군집화(clustering) 알고리즘 2가지에 대한 아이디어를 확인함.K-means clustering (위 사진 기준으로 설명)(a) : 2개(K)의 군집 중심을 정함.(b) : 각 샘플들을 가까운 중심에 할당함.(c) : 중심을 다시 계산함.반복 후, 결정 경계 생성. 결정 경계는 두 중심 사이의 수직 이등분선임. Gaussian mixture model + Expectation maximization(a) : 2개의 원형 가우시안 분포를 생성함.(b) : EM 알고리즘을 통해 혼합 계수, 평균, 공분산 갱신함.(c) : 가우시안 군집 중심 이동함.이후, 반복함.이 수식은 각 샘플이 평균과 공분산인 파라미터의 가우시안에서 얼마..

Computer Vision/5. Deep Learning 2025.06.03

[5.1] Supervised learning (지도학습)

5.1.2 Bayesian classificationP(C|x) : x에 대한 C 클래스일 확률P(x|C) : 클래스 C에 속할 때 관측되는 x의 가능도 (likelihood)P(C) : 클래스 C가 나타날 확률 (prior) ※expX 는 e^X를 의미확률곱을 더하기의 형태로 만들기 위한 수식. (작은 확률의 곱은 언더플로우를 유발)만약 100차원 특징벡터 x = (x1,x2,x3...x100)이고, 각 확률이 평균적으로 0.1이라면0.1^100 = 10^-100이 된다. 그래서 곱연산은 언더플로우를 유발할 수 있음. 그래서 log 형태의 합으로 표현※log(a*b) = loga + logb그리고 2개의 클래스가 있다고 가정한다면 이렇게 수식이 나오게 됨.※l = l0 - l1 : log odds o..

Computer Vision/5. Deep Learning 2025.06.02

README

해당 카테고리의 글들은 'Computer Vision: Algorithms and Applications 2nd Edition - Richard Szeliski' 책을 보고 정리했습니다. 책에 나온 수식들을 이해하고 정리하기 위한 용도의 글이므로 내용이 자세하게 적혀있지 않고, 정확하지 않을 수 있습니다.

Computer Vision/Notice 2025.06.02

준호

Computer Vision 7

티스토리툴바