[Hacker News 요약] DINOv3 비전 임베딩 탐구: 희소 오토인코더로 이미지 특징 해독 및 시각화
21
설명
신경망의 '언어'인 임베딩은 숫자의 나열로 의미 있는 표현을 인코딩하지만, 그 내부를 이해하기는 어렵습니다.
Preston Jensen은 DINOv3 ViT-S 모델의 384차원 비전 임베딩이 인코딩하는 정보를 시각화하고 해석하는 방법을 탐구했습니다.
특히 희소 오토인코더(SAE)를 활용하여 임베딩 내의 개별 시각적 특징을 분해하고 조합하는 실험을 2026년 6월에 공개했습니다.
### 배경 설명
최근 몇 년간 딥러닝 모델, 특히 비전 트랜스포머(Vision Transformer)는 이미지 인식 및 생성 분야에서 혁신적인 발전을 이루었습니다. 이러한 모델의 핵심에는 이미지를 고차원 벡터 공간의 숫자로 표현하는 '임베딩(Embedding)'이 있습니다. 임베딩은 모델이 이미지의 의미론적 정보를 압축하고 이해하는 방식이지만, 384개와 같은 많은 숫자로 구성되어 있어 인간이 직접적으로 해석하기 어렵다는 한계가 있었습니다.
이러한 '블랙박스' 문제를 해결하고 모델의 의사결정 과정을 투명하게 이해하려는 시도는 AI 연구의 중요한 방향 중 하나입니다. 특히 DINOv3 ViT-S(Siméoni et al., 2025)와 같은 자가 지도 학습(self-supervised learning) 모델은 레이블링된 데이터 없이도 풍부한 시각적 특징 공간을 학습하므로, 그 임베딩이 어떤 정보를 담고 있는지 파악하는 것은 모델의 작동 원리를 깊이 이해하는 데 필수적입니다. 본 글은 이러한 비전 임베딩의 내부 구조를 탐색하고, 희소 오토인코더(Sparse Autoencoder, SAE)와 같은 도구를 활용하여 임베딩에 인코딩된 개별 시각적 개념을 추출하고 시각화하는 방법론을 제시합니다.
### DINOv3 모델 임베딩 및 이미지 생성 파이프라인
본 연구는 DINOv3 ViT-S 모델(Siméoni et al., 2025)의 384차원 임베딩을 분석합니다. DINOv3는 원시 픽셀을 풍부한 특징 공간으로 매핑하며, 이미지의 다양한 크롭(crop) 및 증강(augmentation)이 유사한 임베딩을 갖도록 학습되었습니다. 저자는 이 384차원 공간의 숫자들이 인코딩하는 정보를 이해하기 위해, 임의의 임베딩 벡터로부터 이미지를 생성하는 파이프라인을 구축했습니다. 이는 DINOv3가 완전히 미분 가능하다는 점을 활용하여, 생성된 이미지의 임베딩이 목표 임베딩과 코사인 유사도를 최대화하도록 픽셀을 조정하는 방식입니다. DeepDream(Mordvintsev et al., 2015) 및 Olah et al.(2017)의 피처 시각화 연구에서 영감을 받아, 훈련되지 않은 트랜스포머 백본과 보조 총 변동 손실(total variation loss)을 사용하여 고품질 이미지를 생성합니다.
### 희소 오토인코더(SAE)를 통한 특징 추출
DINOv3의 384차원 임베딩은 '중첩(Superposition)' 현상(Elhage et al., 2022)으로 인해 실제로는 훨씬 많은 시각적 개념을 압축하여 인코딩합니다. 이는 모델이 제한된 차원에 수많은 특징을 거의 직교하는 방향으로 배치하여 학습하기 때문입니다. 이러한 중첩된 특징을 개별적이고 해석 가능한 방향으로 분리하기 위해 저자는 희소 오토인코더(SAE)를 사용했습니다. SAE는 언어 모델을 위해 개발되었으나, Fry(2024)가 CLIP에 적용한 바와 같이 비전 트랜스포머에도 적용 가능합니다. DINOv3 ViT-S/16 글로벌(CLS) 임베딩에 32배 확장(384 → 12,288)된 SAE를 훈련하여, 약 12,000개의 고유하고 해석 가능한 특징 방향을 추출했습니다. 추론 시에는 이미지당 최대 32개의 특징이 활성화됩니다.
### 임베딩 분해 및 특징 조합 실험
SAE는 주어진 이미지 임베딩을 학습된 희소 특징들의 집합으로 분해하는 강력한 도구입니다. 저자는 레드우드 숲이나 금문교 이미지의 DINOv3 임베딩을 SAE에 통과시켜, 해당 이미지에서 가장 강하게 활성화되는 특징들을 시각화했습니다. 예를 들어, 금문교 이미지에서는 '금문교 자체'에 특화된 특징이 가장 강하게 활성화되는 것을 확인했습니다. 또한, SAE 훈련 시 다른 특징들을 합산하여 합리적인 혼합을 생성할 수 있다는 가정을 바탕으로, 두 개의 특징 방향을 합산하여 새로운 이미지를 생성하는 실험을 진행했습니다. 옥수수 알갱이와 개선문을 합치면 '옥수수 알갱이로 만든 개선문'이 생성되고, 옥수수 알갱이와 나사를 합치면 '옥수수 위에 나사'가 생성되는 등 흥미로운 조합 방식을 보여주었습니다. 구면 선형 보간(slerp)을 통해 특징 간의 점진적인 변화도 시각화했습니다.
### 개별 특징의 심층 분석: 딸기 특징 사례
저자는 SAE가 생성한 약 12,000개의 특징 중 두 개의 '딸기' 관련 특징(특징 1511, 특징 2314)을 심층적으로 분석했습니다. Gram-Schmidt 직교화 과정을 통해 두 특징의 차이점을 증폭시킨 결과, 특징 1511은 '단일하고 온전한 딸기'를, 특징 2314는 '여러 개의 작은 딸기'를 인코딩하는 것으로 보였습니다. 이 가설을 검증하기 위해 딸기 이미지의 크기와 개수를 변화시키며 두 특징의 활성화 강도를 측정했습니다. 실험 결과, 딸기가 클수록 특징 1511이 강하게 활성화되고, 작을수록 특징 2314가 활성화되는 경향을 보였습니다. 또한, 딸기의 개수가 많을수록 특징 2314가 강해지고 1511이 약해지는 것을 확인했습니다. 최종적으로, 단일하고 크며 온전한 딸기에서는 특징 1511이 지배적이었으나, 단일하고 크지만 잘린 딸기에서는 1511이 급격히 감소하고 2314가 활성화되어, 각 특징이 인코딩하는 미묘한 차이를 명확히 밝혔습니다.
### 특징 공간의 시각화 및 의미
마지막으로, 저자는 ImageNet Val 데이터셋 전체에 SAE를 적용하여 각 이미지에 대해 활성화된 특징 집합을 기록했습니다. 이를 통해 특징들의 공동 활성화(coactivation) 행렬을 생성하고, UMAP(McInnes et al., 2018)을 사용하여 이 고차원 특징 공간을 2차원으로 시각화했습니다. 이는 Carter et al.(2019)의 활성화 아틀라스와 유사한 방식으로, 자주 함께 활성화되는 특징들이 지도상에서 서로 가깝게 배치되어 특징 클러스터와 관계를 한눈에 파악할 수 있게 합니다. 이러한 시각화는 DINOv3의 384개 숫자가 어떤 시각적 개념을 인코딩하고 어떻게 조작될 수 있는지에 대한 직관적인 이해를 제공합니다.
### 가치와 인사이트
본 연구는 DINOv3와 같은 최신 비전 모델의 '블랙박스' 내부를 들여다보는 중요한 방법론을 제시합니다. 희소 오토인코더(SAE)를 활용하여 고차원 임베딩에 중첩된 수많은 시각적 특징들을 개별적으로 분해하고 해석할 수 있게 함으로써, 모델의 작동 원리에 대한 이해를 크게 높였습니다. 이는 AI 모델의 투명성, 신뢰성, 그리고 제어 가능성을 향상시키는 데 기여합니다. 특히, 개별 특징을 시각화하고 조합하는 능력은 모델 디버깅, 편향 감지, 그리고 특정 시각적 속성을 가진 이미지를 정밀하게 생성하거나 조작하는 새로운 응용 가능성을 열어줍니다. 예를 들어, 특정 특징을 제거하거나 강조함으로써 이미지 생성 과정에 대한 세밀한 제어가 가능해질 수 있습니다.
### 기술·메타
- DINOv3 ViT-S (Siméoni et al., 2025)
- Sparse Autoencoder (SAE) (Bricken et al., 2023)
- DeepDream (Mordvintsev et al., 2015)
- Feature Visualization (Olah et al., 2017)
- Deep Image Prior (Ulyanov et al., 2017)
- UMAP (McInnes et al., 2018)
- ImageNet Val dataset
- Gram-Schmidt orthogonalization
- Spherical Linear Interpolation (slerp)
- 384차원 임베딩, 12,288차원 SAE 디코더
### 향후 전망
향후 연구는 임베딩이 어떻게 구성되는지, 그리고 전역(global) 임베딩과 지역(local) 임베딩이 어떻게 다른지에 대한 심층적인 탐구로 이어질 수 있습니다. 또한, CLIP이나 DALL-E와 같은 비전-언어 모델(Vision-Language Models, VLM)에 유사한 특징 시각화 기법을 적용하여 다중 모달 이해의 내부 메커니즘을 밝히는 것이 중요한 과제가 될 것입니다. 현재 수천 개의 특징을 수동으로 분석하는 것은 확장성이 떨어지므로, 이러한 특징들을 자동으로 해석하고 분류하는 방법론 개발이 필수적입니다. 이 연구는 AI 안전(AI safety) 및 정렬(alignment) 분야에서 더 해석 가능한 AI 아키텍처와 도구를 개발하는 데 중요한 기반이 될 것으로 전망됩니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48413366)
- 원문: [링크 열기](https://prestonbjensen.com/posts/playing-with-vision-embeddings)
---
출처: Hacker News · [원문 링크](https://prestonbjensen.com/posts/playing-with-vision-embeddings)
제목글쓴이조회
- [AI Breakfast] OpenAI는 6억 명 이상의 사용자를 대상으로 에이전트 슈퍼앱 전환을 추진합니다. 구글은 2026년 10월부터 SpaceX와 월 9억 2천만 달러 규모의 GPU 컴퓨팅 계약을 체결했습니다. Anthropic은 2025년 후반 모델을 능가하는 미공개 모델과 맞춤형 칩 개발에 집중하고 있습니다.[0]Nedai13
- [The Verge] 마이크로소프트 AI 총괄, '초지능 임박했지만 일자리는 빼앗지 않아' 선언[0]Nedai12
- [The Verge] 구글 NotebookLM, 제미니 3.5 업그레이드로 클라우드 기반 연구 역량 강화[0]Nedai13
댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.