[Hacker News 요약] 저비용 일반 지능을 위한 트랜스포머 이후 아키텍처 'Hope' 공개
41
설명
Blankline Research는 기존 트랜스포머 아키텍처의 근본적인 한계를 극복하고 저비용으로 일반 지능(General Intelligence)을 달성하기 위한 새로운 연구 이니셔티브 'Hope'를 발표했습니다. Hope는 이산 잠재 프로그램 코드, 검증자 기반 탐색(verifier-driven search), 그리고 사전 등록된 7단계 연구 프레임워크를 결합한 포스트-트랜스포머 아키텍처를 제안합니다. 이 초기 연구 단계에서 Hope-1은 Abstraction and Reasoning Corpus (ARC) 태스크에서 기존 트랜스포머 모델 대비 뛰어난 성능과 일반화 능력을 보이며 잠재력을 입증했습니다.
### 배경 설명
현재 GPT, Claude, Gemini 등 최첨단 대규모 언어 모델(LLM)의 기반이 되는 트랜스포머 아키텍처는 놀라운 능력을 보여주지만, 본질적인 한계를 가지고 있습니다. 이들은 주로 '다음 토큰의 확률(P(next token | context))'을 예측하는 방식으로 작동하며, 이는 일반 지능이 요구하는 '관찰을 통한 잠재 구조의 확률(P(latent structure | observations))' 추론과는 다릅니다.
수학적으로 트랜스포머는 TC⁰ 회로 복잡도 클래스에 속하여 단일 순방향 패스에서 임의의 함수 합성을 수행할 수 없으며, 자기회귀 샘플링은 장기 추론에서 지수적 발산을 야기합니다. 또한, 잠재 구조에 대한 사후 확률을 명시적으로 계산하지 않습니다. Hope 이니셔티브는 이러한 트랜스포머의 근본적인 아키텍처적 한계를 지적하며, 이를 극복할 수 있는 새로운 접근 방식을 모색합니다. 이는 단순히 엔지니어링적 개선을 넘어, 일반 지능을 위한 '올바른' 확률 연산을 찾는다는 점에서 주목할 만합니다.
### Hope-1 아키텍처의 핵심 구성 요소
Hope-1은 인코더, 벡터 양자화(Vector Quantisation), 프로그램 디코더, 추론 시 탐색(Search at Inference), 그리고 검증자(Verifier)로 구성됩니다. 인코더는 입력에서 연속 임베딩을 생성하고, 이를 벡터 양자화를 통해 이산 코드로 변환하여 후방 붕괴(posterior collapse)를 방지합니다. 디코더는 이 이산 코드를 프로그램처럼 실행하여 출력을 예측하며, 추론 시에는 검증자 신호를 기반으로 이산 코드를 반복적으로 정제하는 탐색 과정을 거칩니다. 검증자는 도메인별로 정의되며, ARC 태스크에서는 셀 단위 정확도 일치(per-cell exact-match)를 사용합니다. 이 구조는 잠재 구조를 명시적으로 추론하고 이를 기반으로 탐색 및 자기 개선을 수행하도록 설계되었습니다.
### 7단계 연구 프레임워크 및 초기 검증 결과
Hope 이니셔티브는 3가지 핵심 주장과 7단계의 사전 등록된 실험 프레임워크를 통해 진행되었습니다. 초기 연구 단계에서 Hope-1은 7단계 중 4단계(아키텍처 용량, 이산 잠재 공간의 붕괴 방지, 탐색 기반 추론의 우수성, ARC 태스크에서의 교차 태스크 일반화)를 성공적으로 통과했습니다. 특히 0.69M 파라미터 모델은 이전에 보지 못한 ARC 태스크에서 9.2%의 정확도 일치(held-out exact-match)를 달성하여, 가장 유사한 기존 모델(Latent Program Network) 대비 약 2배 높은 성능을 보였습니다. 이는 트랜스포머의 한계를 넘어선 새로운 일반화 능력을 시사합니다.
### 도전 과제 및 투명한 실패 보고
Hope 이니셔티브는 성공뿐만 아니라 실패도 투명하게 보고했습니다. 5단계(검증자 기반 자기 개선 루프의 단조로운 이득 생성)는 사전 등록된 조건 하에서 달성하지 못했습니다. 4가지 자기 개선 절차를 테스트했지만, 모두 초기에는 약간의 개선을 보이다가 결국 기준선으로 회귀했습니다. 이는 소규모 모델과 제한된 훈련 데이터로는 자기 개선의 복합적인 효과를 얻기 어렵다는 기존 연구 문헌의 관찰과 일치합니다. 6단계(아키텍처 스케일링)에서도 3M 파라미터 모델이 10.2%의 정확도를 달성했지만, 데이터 병목 현상으로 인해 조기 과적합이 발생했습니다. 이러한 실패 보고는 연구 방법론의 신뢰성을 높이는 중요한 부분입니다.
### AI 시스템 'Primus'의 연구 주도
이 연구는 Blankline Research의 독점 AI 연구 시스템인 'Primus v0.2'가 주도했습니다. Primus는 아키텍처 설계, 구현, 실험 설계, 하이퍼파라미터 선택, 오류 진단, 반증 테스트 및 원고 초안 작성 등 연구의 대부분을 수행했습니다. 단 한 명의 인간 연구자가 의사 결정 병목 지점에서 개입하여 연구 질문을 설정하고, 사전 등록된 프레임워크를 고수하며, Primus의 중간 대안을 심사하고, 실패할 수 있는 테스트를 주장하는 역할을 했습니다. 이는 AI가 복잡한 과학 연구를 수행하는 새로운 패러다임을 보여줍니다.
### 가치와 인사이트
Hope 이니셔티브는 트랜스포머 아키텍처의 근본적인 한계를 극복하고, 일반 지능을 위한 새로운 경로를 제시한다는 점에서 큰 가치를 가집니다. 첫째, 탐색을 통해 TC⁰ 복잡도를 벗어나고, 사후 추론을 통해 지수적 발산을 피하며, 이산 프로그램 코드를 통해 추론 시간 낭비를 줄임으로써 '트랜스포머 스케일링 체제'에서 벗어날 수 있는 가능성을 열었습니다. 이는 FLOP당 수학적으로 더 표현력이 풍부한 아키텍처를 통해 일반 지능의 비용 효율성을 크게 개선할 수 있음을 의미하며, 경제적, 지정학적으로 상당한 영향을 미칠 수 있습니다. 둘째, 압축 기반 지능을 위한 정량적인 아키텍처 목표를 제공하며, 사전 등록된 연구 방법론을 통해 과학적 엄격성을 높였습니다. 이는 AI 연구 분야에서 투명성과 재현성을 확보하는 중요한 시사점을 제공합니다.
### 기술·메타
- 이산 잠재 프로그램 코드 (Discrete-latent program codes)
- 검증자 기반 탐색 (Verifier-driven search)
- 트랜스포머 아키텍처 (Encoder, Decoder)
- 벡터 양자화 (Vector Quantisation)
- Abstraction and Reasoning Corpus (ARC)
- AI 연구 시스템 'Primus'
### 향후 전망
Hope 이니셔티브의 다음 단계는 'Rung 7' 달성에 집중될 것입니다. 이는 30M에서 100M 파라미터 규모로 아키텍처를 확장하고, RE-ARC, ConceptARC, miniF2F, SWE-Bench와 같은 다중 도메인 데이터셋에서 훈련하며, 제대로 스케일링된 검증자 기반 자기 개선 루프를 구현하는 것을 목표로 합니다. 이 단계는 Hope-1이 트랜스포머 스케일링을 넘어설 수 있는 신뢰할 수 있는 경로인지 검증하거나 반증하는 결정적인 이정표가 될 것입니다. 이를 위해서는 상당한 컴퓨팅 자원(25만 달러에서 200만 달러 추정)과 6~12개월의 집중적인 연구, 그리고 2~5명의 연구팀이 필요합니다. Blankline Research는 현재 연구 자금 지원 기관, 선도적인 연구소, 그리고 이 분야에 관심 있는 개인 투자자들과의 협력을 적극적으로 모색하고 있습니다. 코드, 가중치, 상세 구현은 현재 비공개 상태이며, 이는 장기적인 독점 연구 이니셔티브로서의 가치를 보존하기 위한 전략입니다. 향후 Rung 7 결과는 별도의 발표를 통해 공개될 예정입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48065329)
- 원문: [링크 열기](https://blankline.org/research/hope)
---
출처: Hacker News · [원문 링크](https://blankline.org/research/hope)
댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.