Google MediaPipe 프로젝트란?
MediaPipe는 Google이 개발하고 오픈소스로 공개한 크로스 플랫폼 머신러닝 솔루션 프레임워크입니다. 2019년 처음 공개된 이후 얼굴 감지, 손 추적, 자세 인식, 물체 감지 등 다양한 컴퓨터 비전 기능을 제공하며 빠르게 발전해 왔습니다. MediaPipe의 가장 큰 특징은 모바일 기기에서도 실시간으로 동작할 수 있을 만큼 경량화되고 최적화되어 있다는 점입니다. 스마트폰의 제한된 연산 자원에서도 초당 수십 프레임의 속도로 얼굴을 분석할 수 있습니다.
MediaPipe는 현재 Python, JavaScript, Android, iOS, Web 등 다양한 플랫폼을 지원하며, 전 세계 수백만 명의 개발자들이 다양한 애플리케이션에서 활용하고 있습니다. AR 필터, 건강 모니터링, 스포츠 분석, 접근성 도구 등 다양한 분야에서 MediaPipe를 기반으로 한 혁신적인 서비스들이 탄생하고 있습니다.
478개 랜드마크 포인트의 의미
MediaPipe FaceLandmarker의 핵심은 얼굴에서 478개의 랜드마크 포인트를 정밀하게 추출하는 능력입니다. 이전 세대의 얼굴 인식 기술이 68개 내외의 랜드마크를 사용했던 것에 비해, 478개는 훨씬 더 세밀한 얼굴 분석을 가능하게 합니다. 각 포인트는 얼굴의 특정 위치를 나타내며, 이 포인트들을 연결하면 얼굴의 3D 메시(mesh)를 형성합니다.
478개의 랜드마크는 눈(각 눈에 약 70개), 눈썹(각 눈썹에 약 10개), 코(약 35개), 입술(약 80개), 턱선과 얼굴 윤곽(약 50개), 볼과 이마(나머지 포인트) 등으로 구성됩니다. 이렇게 세밀한 포인트 데이터를 이용하면 눈꼬리의 각도, 눈꺼풀의 두께, 콧날의 굴곡, 입술의 두께와 커핀도(Cupid's bow) 형태, 턱선의 각도 등 매우 세부적인 얼굴 특징을 수치화할 수 있습니다.
실시간 얼굴 추적의 원리
MediaPipe FaceLandmarker는 두 단계의 파이프라인으로 동작합니다. 첫 번째 단계는 얼굴 감지(Face Detection) 단계로, 이미지 전체에서 얼굴이 있는 영역을 빠르게 탐색합니다. 이 과정에는 경량화된 딥러닝 모델이 사용되며, 매우 빠른 속도로 동작합니다. 두 번째 단계는 랜드마크 추출(Landmark Extraction) 단계로, 첫 번째 단계에서 감지된 얼굴 영역에 집중하여 478개의 정밀한 랜드마크 포인트를 계산합니다.
특히 비디오 스트림에서의 실시간 추적 시에는 이전 프레임의 랜드마크 위치를 다음 프레임의 초기 추정값으로 활용하는 최적화 기법을 사용합니다. 이를 통해 매 프레임마다 처음부터 계산하는 것보다 훨씬 빠르고 안정적인 추적이 가능합니다. 또한 2D 이미지에서 3D 깊이 정보를 추정하는 기술도 내장되어 있어, 고개를 좌우로 돌리거나 위아래로 움직여도 정확하게 랜드마크를 추적합니다.
Hogamdo에서의 활용: 얼굴 비율 측정
호감도(Hogamdo) 서비스는 MediaPipe FaceLandmarker를 핵심 기술로 활용하여 사용자의 얼굴을 분석합니다. 특히 다음과 같은 주요 메트릭을 계산하는 데 랜드마크 데이터를 사용합니다.
얼굴 비율(Face Ratio): 얼굴의 가로 너비 대비 세로 길이의 비율입니다. 긴 얼굴인지 둥근 얼굴인지를 나타내며, 문화권마다 선호하는 이상적인 얼굴 비율이 다릅니다. 턱선 각도(Jaw Ratio): 턱의 각도와 너비를 측정합니다. 각진 턱인지 부드러운 V라인인지를 수치화합니다. 눈의 크기(Eye Ratio): 눈의 크기를 얼굴 전체 크기 대비 비율로 계산합니다. 입술 두께(Lip Ratio): 위아래 입술의 두께와 입술 전체의 너비를 측정합니다. 광대뼈 돌출도(Cheek Ratio): 광대뼈의 위치와 돌출 정도를 분석합니다.
이 다섯 가지 핵심 메트릭을 139개국의 문화권별 미적 기준 데이터와 비교하여, 어느 나라에서 높은 호감도를 받을 수 있는지 계산합니다.
개인정보 보호: 로컬 처리의 중요성
MediaPipe의 또 다른 중요한 특징은 모든 처리가 사용자의 기기 내에서 완결된다는 점입니다. 얼굴 이미지가 외부 서버로 전송되지 않아도 됩니다. Hogamdo에서는 사용자가 업로드한 이미지를 서버에서 처리하지만, MediaPipe를 통해 추출된 숫자 데이터(랜드마크 좌표와 메트릭 수치)만 분석에 사용하며, 원본 이미지는 분석 후 서버에 저장하지 않습니다.
이는 기존의 얼굴 인식 기술이 얼굴 이미지를 클라우드 서버로 전송하고 서버에서 처리한 결과를 받아오는 방식과 근본적으로 다릅니다. MediaPipe 기반의 접근 방식은 처리 속도도 빠르고 개인정보 침해 위험도 낮습니다. 실제로 MediaPipe를 웹 브라우저에서 JavaScript로 실행하면, 얼굴 데이터가 사용자의 컴퓨터 밖으로 나가지 않는 완전한 로컬 처리가 가능합니다.
Hogamdo가 MediaPipe로 추출하는 11개 얼굴 지표
MediaPipe FaceLandmarker는 478개 3D 좌표를 검출하지만, 호감도(Hogamdo)는 그중 핵심 영역의 좌표만 사용해 11개의 정량 지표를 계산합니다. 이 지표가 139개국 임베딩과 비교되어 국가별 호감도 점수가 생성됩니다. 주요 5개 지표와 가중치는 다음과 같습니다.
| 지표 | 의미 | 가중치 |
|---|---|---|
| eyeRatio | 눈 크기와 얼굴의 비율 | 800 |
| lipRatio | 입술 길이/두께 비율 | 450 |
| jawWidth | 턱 너비 정규화 값 | 280 |
| cheekWidth | 광대 너비 정규화 값 | 280 |
| faceRatio | 얼굴 가로/세로 비율 | 30 |
+ 미간 거리, 코 너비, 입꼬리 위치 등 6개 보조 지표를 포함해 총 11개를 사용합니다.
눈(800)과 입술(450)에 가장 큰 가중치를 두는 이유는 13개 문화권 간 호감도 차이가 이 두 영역에서 가장 두드러지기 때문입니다. 예를 들어 동아시아 평균 jaw 0.789~0.812 범위와 서유럽 평균 jaw 0.812 이상은 통계적으로 분리되며, 이 차이가 사용자별 점수 분포에 반영됩니다. 같은 문화권 안에서는 75~95점, 다른 문화권에서는 65~100점 범위로 정규화해 어느 한 지표가 극단적이어도 결과가 한쪽으로 치우치지 않게 보정합니다.
참고: 위 가중치와 분포는 호감도 v8g63 튜닝 기준이며, 139개국·13개 문화권의 결과 분포 균형이 ±2.6pp 이내로 유지되도록 정기 조정됩니다.
📚 참고 자료
- • Google AI (2023). MediaPipe Face Landmarker. Google Developers.
- • Lugaresi, C. et al. (2019). MediaPipe: A Framework for Building Perception Pipelines. arXiv.
- • Kartynnik, Y. et al. (2019). Real-time Facial Surface Geometry from Monocular Video. CVPR Workshop.