Hogamdo | 얼굴 임베딩 기술 원리

스마트폰으로 사진을 찍으면 그 사진 속 인물이 누구인지 자동으로 인식하는 기술, 소셜미디어에서 사진에 자동으로 태그를 제안하는 기능, 얼굴을 분석하여 어느 나라 사람들과 얼굴이 비슷한지 알려주는 서비스까지. 이 모든 것의 핵심에는 "얼굴 임베딩(face embedding)" 기술이 있습니다. 복잡하게 들리지만, 핵심 개념을 이해하고 나면 놀랍도록 우아한 수학적 아이디어에 감탄하게 됩니다.

임베딩이란 무엇인가: 얼굴을 숫자로 변환하기

'임베딩(embedding)'이란 복잡한 데이터를 숫자 벡터(여러 숫자들의 배열)로 변환하는 기법입니다. 얼굴 임베딩은 얼굴 이미지를 수백 개의 숫자로 이루어진 벡터로 변환합니다. 이 과정을 직관적으로 이해해봅시다.

예를 들어, 어떤 얼굴을 128개의 숫자로 이루어진 벡터 [0.23, -0.15, 0.87, 0.04, ...]로 표현한다고 상상해보세요. 이 128개의 숫자는 좌표처럼 작동하여 128차원의 공간에서 하나의 점(point)을 나타냅니다. 비슷한 얼굴들은 이 고차원 공간에서 서로 가까운 위치에 놓이게 됩니다. 반대로 다른 사람의 얼굴은 이 공간에서 멀리 떨어진 위치에 놓입니다.

이것이 바로 임베딩의 핵심 아이디어입니다. "비슷한 얼굴은 비슷한 벡터를 가진다"는 원리를 이용하여, 두 벡터 사이의 거리를 계산함으로써 두 얼굴이 얼마나 비슷한지를 수치화할 수 있습니다. 이 원리를 활용하면 "이 얼굴과 가장 비슷한 얼굴을 찾아라"라는 문제가 "이 벡터와 가장 가까운 벡터를 찾아라"라는 수학 문제로 변환됩니다.

딥러닝과 CNN: 얼굴의 특징을 자동으로 학습하는 방법

그렇다면 컴퓨터는 어떻게 얼굴에서 의미 있는 특징을 추출하여 임베딩 벡터를 만들까요? 이 과정에서 핵심적인 역할을 하는 것이 합성곱 신경망(Convolutional Neural Network, CNN)입니다.

CNN은 인간의 시각 피질을 모방하여 설계된 딥러닝 구조입니다. 이미지를 처리할 때 CNN은 여러 층(layer)을 거치면서 점점 더 추상적인 특징을 추출합니다. 초기 층에서는 가로선, 세로선, 대각선 같은 단순한 패턴을 인식합니다. 중간 층에서는 눈의 모양, 코의 형태, 입술의 곡선 같은 더 복잡한 특징을 인식합니다. 깊은 층에서는 '이 사람이 특정 나이대로 보인다', '이 얼굴은 특정 민족적 특징을 가진다' 같은 고수준의 의미론적 특징을 추출합니다.

이 모든 특징 추출 과정은 인간이 직접 규칙을 프로그래밍하는 것이 아니라, 수백만 장의 얼굴 이미지 데이터를 통해 자동으로 학습됩니다. CNN은 "이 두 사진이 같은 사람인가, 다른 사람인가?"라는 문제를 풀면서 스스로 유용한 특징이 무엇인지 발견해냅니다.

벡터 공간에서의 유사도 계산: 코사인 유사도와 유클리드 거리

얼굴 임베딩 벡터가 생성되면, 두 벡터 사이의 유사도를 계산하는 다양한 방법이 있습니다. 가장 많이 사용되는 두 가지 방법은 코사인 유사도와 유클리드 거리입니다.

코사인 유사도(Cosine Similarity)는 두 벡터가 이루는 각도를 기반으로 유사도를 계산합니다. 두 벡터의 방향이 완전히 같으면 코사인 유사도는 1(완전 일치), 직각을 이루면 0, 반대 방향이면 -1이 됩니다. 얼굴 임베딩에서는 두 얼굴이 같은 사람이면 코사인 유사도가 높고, 다른 사람이면 낮습니다.

유클리드 거리는 우리가 일상적으로 아는 거리 개념을 고차원으로 확장한 것입니다. 두 점 사이의 직선 거리를 계산하는 방식으로, 두 얼굴이 비슷할수록 임베딩 벡터 간의 유클리드 거리가 작아집니다.

호감도 분석에서는 이 유사도 계산을 다음과 같이 활용합니다. 다양한 나라 사람들의 얼굴 임베딩을 미리 계산하여 저장해두고, 분석 대상 얼굴의 임베딩을 생성한 다음, 각 나라의 평균 임베딩과의 거리를 계산하여 가장 유사한 문화권을 찾아냅니다.

FaceNet과 ArcFace: 얼굴 임베딩의 대표 모델들

실제로 사용되는 얼굴 임베딩 모델 중 가장 유명한 것들을 소개합니다. FaceNet은 Google이 2015년 발표한 모델로, 128차원의 얼굴 임베딩을 생성합니다. 훈련 시에는 '트리플렛 손실(triplet loss)'이라는 특수한 학습 방법을 사용합니다. 같은 사람의 두 사진(앵커와 포지티브)은 임베딩 공간에서 가깝게, 다른 사람의 사진(네거티브)은 멀게 배치되도록 모델을 훈련합니다. FaceNet은 LFW(Labeled Faces in the Wild) 벤치마크에서 99.63%의 정확도를 달성했습니다.

ArcFace는 2019년 발표된 모델로, 각도 기반의 마진 손실 함수(additive angular margin loss)를 사용하여 FaceNet보다 더 명확하게 서로 다른 사람들의 임베딩을 분리합니다. ArcFace는 얼굴 인식 분야에서 사실상 업계 표준으로 자리 잡았으며, 보안 시스템, 스마트폰 잠금 해제, 출입 통제 등 다양한 응용 분야에서 활용됩니다.

호감도 분석에서의 임베딩 활용: 문화권별 얼굴 분포

호감도 분석 시스템이 얼굴 임베딩을 어떻게 활용하는지 구체적으로 살펴봅시다. 우선 세계 각 나라와 문화권의 대표적인 얼굴들을 수집하여 각각의 임베딩 벡터를 계산합니다. 그런 다음 국가별로 얼굴 임베딩의 분포(평균, 분산)를 계산하여 그 나라 얼굴의 특성을 벡터 공간에서 정의합니다.

사용자가 자신의 사진을 업로드하면, 시스템은 해당 얼굴의 임베딩 벡터를 생성하고, 각 나라의 얼굴 분포와의 유사도를 계산합니다. 유사도가 높은 나라일수록 그 나라 사람들이 사용자의 얼굴에 친숙함과 호감을 느낄 가능성이 높다는 해석을 제공합니다.

이 접근법은 단순히 "이 얼굴은 어떤 민족처럼 생겼는가"를 판단하는 것이 아닙니다. 얼굴의 다양한 특징들이 문화권별 미적 기준과 얼마나 일치하는지를 수학적으로 측정하는 것입니다. 임베딩 공간은 인종이나 민족의 경계를 넘어 더 세밀하고 복잡한 얼굴 특징의 유사성을 포착할 수 있습니다.

기술의 한계와 윤리적 고려사항

얼굴 임베딩 기술은 강력하지만 한계와 윤리적 문제도 함께 갖고 있습니다. 학습 데이터의 편향 문제가 가장 중요합니다. 만약 모델이 주로 특정 인종이나 성별의 얼굴로 훈련되었다면, 해당 그룹이 아닌 얼굴에 대한 정확도가 낮아질 수 있습니다. 실제로 많은 얼굴 인식 시스템이 어두운 피부색의 여성 얼굴을 인식하는 데 더 높은 오류율을 보인다는 연구 결과가 있습니다.

프라이버시 문제도 중요합니다. 얼굴 임베딩은 생체 정보로서, 한번 생성된 임베딩은 쉽게 개인을 식별하는 데 사용될 수 있습니다. 무분별한 얼굴 인식 기술의 사용은 개인의 이동과 활동에 대한 광범위한 감시를 가능하게 할 수 있어 심각한 프라이버시 침해 우려가 있습니다.

기술이 발전할수록 이러한 윤리적 문제에 대한 사회적 논의와 규제의 필요성도 커집니다. 얼굴 임베딩 기술은 우리에게 매력적인 도구를 제공하지만, 그 활용에 있어 신중함과 윤리적 책임이 반드시 동반되어야 합니다.

얼굴 임베딩 기술 원리

임베딩이란 무엇인가: 얼굴을 숫자로 변환하기

딥러닝과 CNN: 얼굴의 특징을 자동으로 학습하는 방법

벡터 공간에서의 유사도 계산: 코사인 유사도와 유클리드 거리

FaceNet과 ArcFace: 얼굴 임베딩의 대표 모델들

호감도 분석에서의 임베딩 활용: 문화권별 얼굴 분포

기술의 한계와 윤리적 고려사항

📚 참고 자료

관련 글

📚 참고문헌