컴퓨터비전(CV) 용어 정리

인공지능 각 분야별 자주 쓰이는 용어를 정리해보려고 합니다.

조금씩 완성해나가는 글인만큼, 미완성에 대한 양해를 부탁드립니다. 😉

Q. 컴퓨터 비전(Computer Vision)이란?

컴퓨터가 어떻게 시각 세계를 해석하고 이해하도록 만들 수 있는지에 초점을 맞춘 연구 분야입니다. 현재 인공지능의 주요 분야로 자리잡았습니다. 컴퓨터가 픽셀을 보고, 관찰하고, 이해하는 방법을 가르쳐 이미지에서 의미있는 정보를 추출하는 것을 목표로 합니다. 영상 분석, 객체 인식, 얼굴 검출 등이 포함되며 2022년 기준 시장 규모는 468억 달러에 이를 것으로 예상됩니다.

Q. 이미지 인식(Image Recognition) 기술이란?

이미지 인식은 이미지나 비디오에서 물체, 사람, 장소, 행동을 식별하기 위해 컴퓨터에 의해 사용되는 기술입니다. 디지털 이미지를 분석하고 그 안에 무엇이 있는지 결정할 수 있는 알고리즘과 컴퓨터 프로그램의 개발을 포함합니다. 레이블이 지정된 대규모 이미지 데이터셋에 대해 훈련되어 서로 다른 객체와 장면이 어떻게 생겼는지 학습한 다음, 이 지식을 사용하여 새로운 이미지에서 유사한 개체를 인식하게 됩니다. 주요 문제로는 Classification, Object Detection, Instance Segmentation, Pose Estimation 등이 있습니다.

Q. 분류(Classification)란?

분류는 기계 학습과 컴퓨터 비전에서 모델이 주어진 입력에 레이블이나 클래스를 할당하도록 훈련되는 작업입니다. 입력은 이미지, 텍스트 또는 수치 데이터일 수 있으며, 모델의 목표는 입력을 가장 잘 설명하는 클래스를 예측하는 것입니다. 분류는 객체 인식, 감정 분석, 스팸 탐지와 같은 많은 컴퓨터 비전 및 기계 학습 응용 프로그램의 핵심 구성 요소입니다. 분류 모델은 다양한 특수 사례에서 인간을 뛰어넘는 성능을 보여주고 있습니다.

Q. 객체 탐지(Object Detection)란?

객체 탐지(Object Detection)는 컴퓨터 비전에서 디지털 이미지 또는 비디오에서 객체를 찾고 분류하는 데 사용되는 기술입니다. 이미지에서 객체를 식별하여 레이블을 할당하는 것에서 더 나아가 이미지 내의 특정 요소를 탐지하는 것으로 이미지를 분리해 분석할 수 있도록 객체 주변에 경계 상자(bounding box)를 통하여 작은 크기의 이미지 패치를 제공합니다. 객체 탐지는 자율주행, 감시, 로봇 공학 등 다양한 응용 분야에 응용되고 있습니다.

Q. 인스턴스 분할(Instance Segmentation)이란?

인스턴스 분할은 이미지에서 객체의 존재를 감지할 뿐만 아니라 각 객체 인스턴스의 정확한 경계를 결정하고 각 인스턴스에 고유한 레이블을 할당하는 작업을 포함합니다. 단순히 분류하는 것을 넘어 개별 객체 인스턴스에 해당하는 별개의 의미 있는 세그먼트로 이미지를 분할합니다. 이를 통해 이미지를 훨씬 더 세밀하게 이해할 수 있어 로봇 공학, 의료 영상 및 자율 주행과 같은 응용 분야에서 활용됩니다. 인스턴스 분할 모델은 일반적으로 R-CNN 및 Mask R-CNN을 사용하여 객체 감지 및 인스턴스 분할을 함께 수행하게 됩니다.

Q. 자세 추정(Pose Estimation)이란?

고정된 객체의 경우 객체의 위치와 방향을 추정하는 것으로 로봇을 구현하는데 유용합니다. 고정되지 않은 경우 하부 요소들의 상대적인 위치를 추정하는 것을 의미합니다. 타깃이 사람이라면 사람의 자세를 인식하거나 수화를 이해하는데 적용할 수 있습니다.

Q. CNN(Convolutional Neural Network)이란?

CNN(Convolutional Neural Network)은 이미지 처리에 탁월한 성능을 보이는 신경망입니다. 일반적으로 입력 이미지로부터 유용한 특성만 추출하여 입력 이미지가 어떠한 클래스인지 분류하게 됩니다. 합성곱 신경망은 크게 합성곱층(Convolution layer)과 풀링층(통합 계층, Pooling layer), 완전 연결층(fully connected layer)으로 구성되어 있습니다.

Q. 합성곱 층(Convolutional Layer)이란?

CNN(Convolutional Neural Network)의 가장 중요한 구성 요소가 합성곱 층입니다. 첫 번째 합성곱 층의 뉴런은 입력 이미지의 모든 픽셀에 연결되는 것이 아니라, 사각 형태의 뉴런 수용장 안에 있는 픽셀에만 연결됩니다. 두 번째 합성곱 층에 있는 각 뉴런은 첫 번째 층의 사각 영역 안에 위치한 뉴런에 연결됩니다. 이런 구조는 네트워크가 첫 번째 은닉층에서는 저수준 특성에 집중하고, 그 다음 은닉층에서는 더 큰 고수준 특성으로 조합해 나가도록 도와줍니다.

Q. IoU란?

객체탐지의 성능 평가지표로 IoU(Intersection over Union)를 사용할 수 있습니다. Detection 정확도 를 측정하며 경계 상자를 출력으로 제공하는 모든 알고리즘은 IoU 를 사용해 평가할 수 있습니다. 실제 바운딩 박스와 예측 바운딩 박스의 합집합 영역에서 서로 교집합으로 겹친 영역의 비율을 측정하게 됩니다.

Q. 광학 흐름(Optical Flow)이란?

광학 흐름이란 영상 내 물체의 움직임 패턴을 말합니다. 이전 프레임과 다음 프레임 간 픽셀이 이동한 방향과 거리 분포입니다. 광학 흐름으로 영상 내 객체를 추적할 수 있습니다. 나아가 물체의 움직임을 예측할 수도 있습니다.

Q. 칼만 필터링(Kalman Filtering)이란?

칼만 필터는 노이즈가 포함되어 있는 선형 역학계의 상태를 추적하는 재귀 필터입니다. 칼만 필터는 과거에 수행한 측정값을 바탕으로 현재의 상태 변수의 결합분포를 추정합니다. 컴퓨터 비전에서는 이전 프레임의 움직임 정보를 바탕으로 물체의 위치를 추정하게 됩니다. 연산 속도가 빨라 물체 추적(Object Tracking)에 효과적입니다.

Q. 객체 추적(Object Tracking)이란?

객체 추적은 비디오나 연속 프레임에서 객체를 찾기 위한 컴퓨터 비전 기술입니다. 물체가 움직일 때 물체의 위치와 형태를 지속적으로 추정합니다. 객체 추적의 목표는 객체의 위치와 모양을 유지하고 가려짐, 크기 변경, 회전 등의 문제를 처리하는 것입니다. 객체 추적은 감시, 자율주행차, 스포츠 분석과 같은 다양한 응용 분야에서 널리 사용됩니다.

Q. 특징 검출(Feature Detection)이란?

특징 검출(Feature Detection)은 이미지 내의 주요한 특징점을 검출하는 방법입니다. 해당 특징점이 존재하는 위치를 알려주거나 해당 특징점을 부각시킵니다. 검출하는 특징으로는 가장자리(Edge), 모서리(Corner), 윤곽(Contours) 등이 있으며, 추출된 특징은 객체 인식, 추적, 일치와 같은 다양한 컴퓨터 비전 작업의 입력으로 사용될 수 있습니다. 일반적으로 사용되는 특징 검출 알고리즘으로는 SIFT, SURF, ORB, Harris Corner Detection 등이 있습니다.

Q. 이미지 복원(Image Restoration)이란?

이미지 복원은 손상되거나 노이즈가 있는 이미지를 가져와 깨끗한 원본 이미지를 추정하는 작업입니다. 이미지를 더 깨끗하고 선명하고 원본에 가깝게 보이게 함으로써 이미지의 시각적 품질을 향상시킵니다. 이미지 손상은 모션 블러, 노이즈, 카메라 초점 미스 등 다양한 형태로 나타날 수 있습니다. 일반적으로 필터링, deconvolution, inpainting, super-resolution 같은 기술을 사용하게 됩니다.

Q. 이미지 향상(Image Enhancement)이란?

Image Enhancement는 이미지를 시각적으로 더 매력적으로 만들거나 세부 사항을 끌어내기 위해 이미지의 시각적 품질을 향상시키는 과정으로 보통 저화질의 이미지를 고화질로 바꾸어주는 것을 말합니다. 일반적인 이미지 향상 기법으로 히스토그램 균등화, 감마 보정, unsharp masking, U-Net 구조 등을 활용하게 됩니다.

Q. 장면 이해(Scene Understanding)란?

컴퓨터 비전에서의 장면 이해(scene understanding)는 객체, 범주, 속성, 관계, 기본 장면 컨텍스트를 포함하여 이미지 또는 비디오 시퀀스의 의미적 내용을 인식하고 이해하는 과정을 말합니다. 단순한 객체 인식을 넘어 객체, 장면 및 이벤트 간의 상호 작용에 대한 여러 단서와 추론을 통합하는 더 높은 수준의 작업이 장면 이해입니다.

장면 이해의 목표는 시각적 콘텐츠의 풍부하고 완전한 표현을 제공하여 사람과 같은 방식으로 환경에 대해 상호 작용하고 추론할 수 있는 애플리케이션을 개발하는 것으로 자율 주행, 비디오 감시 및 증강 현실 등이 포함됩니다.

Q. 1

Q. 2

Augmented Reality
Structure from Motion
Image Synthesis
Image Transformation
Image Registration
Image Classification
Image Segmentation
Image Annotation
Object Proposal
Image Representation
Image Filtering
Image Gradients
Image Pyramids
Image Convolution
Image Binarization
Image Correlation

저작자표시 비영리 변경금지 (새창열림)

오버피팅 인공지능

컴퓨터비전(CV) 용어 정리

댓글

티스토리툴바