[Hacker News 요약] 제약 산업의 신약 개발 가속화를 위한 생성형 AI 기반 시스템 PRINCE 구축 사례
2
설명
Bayer AG는 Thoughtworks와 협력하여 신약 개발 과정의 복잡한 전임상 데이터 문제를 해결하기 위한 클라우드 기반 플랫폼 PRINCE를 개발했습니다. 이 플랫폼은 생성형 검색 증강 생성(RAG) 및 텍스트-SQL 기술을 활용하여 수십 년간 축적된 안전성 연구 보고서를 통합합니다. PRINCE는 단순한 키워드 검색에서 벗어나 복잡한 질문에 답하고 규제 문서를 초안하는 지능형 연구 조교로 진화했습니다.
### 배경 설명
제약 산업의 신약 개발은 방대한 양의 전임상 데이터를 효율적으로 관리하고 분석하는 데 상당한 어려움을 겪고 있습니다. 기존의 키워드 기반 검색 방식은 복잡하고 미묘한 연구 질문에 대한 답변을 찾는 데 한계가 있었습니다. 이러한 배경 속에서 대규모 언어 모델(LLM)과 검색 증강 생성(RAG) 기술의 발전은 전임상 데이터 접근 방식을 혁신할 잠재력을 보여주었습니다. PRINCE는 이러한 기술을 활용하여 Bayer AG가 수십 년간 축적한 방대한 비공개 연구 보고서에서 귀중한 통찰력을 추출하고 연구 효율성을 크게 향상시키는 것을 목표로 합니다. 이 시스템은 특히 '컨텍스트 엔지니어링'과 '하네스 엔지니어링'이라는 개념을 통해 정보의 흐름과 모델 주변의 오케스트레이션, 복구, 관찰 가능성 구축에 대한 엔지니어링 결정을 반영합니다. 이는 AI가 제약 연구의 복잡성을 어떻게 해결하고 신약 개발 과정을 가속화할 수 있는지 보여주는 중요한 사례 연구입니다.
### 도전 과제: 전임상 데이터의 복잡한 미로 탐색
Bayer AG와 같은 대규모 제약 조직의 전임상 연구 환경은 다양한 유형의 데이터로 가득합니다. 여기에는 다양한 연구에서 생성된 구조화된 데이터셋뿐만 아니라 연구 보고서, 논문, 규제 제출물과 같은 텍스트 문서에 포함된 방대한 양의 비구조화된 정보가 포함됩니다. 연구원들은 이러한 정보에 효과적으로 접근하고 분석하는 데 다음과 같은 상당한 장애물에 직면했습니다. 데이터 사일로: 정보가 여러 분산된 시스템과 저장소에 파편화되어 있어 특정 화합물 또는 연구와 관련된 전임상 데이터에 대한 포괄적이고 전체적인 보기를 얻기 어렵습니다. 제한된 검색 기능: 기존의 키워드 기반 검색 엔진은 전임상 용어 및 연구 질문의 복잡성과 다양성을 처리하는 데 어려움을 겪었으며, 종종 관련성이 없거나 불완전하거나 압도적인 결과를 반환했습니다. 시간이 많이 소요되는 수동 분석: 여러 문서에서 특정 통찰력을 추출하거나 정보를 컴파일하려면 상당한 수동 노력이 필요했으며, 귀중한 연구원 시간을 핵심 과학 활동에서 벗어나게 했습니다. 이러한 내재된 과제는 전임상 데이터 검색 및 분석을 위한 보다 효율적이고 지능적이며 통합된 접근 방식의 명확한 필요성을 강조했습니다.
### 솔루션: PRINCE - 진화하는 플랫폼
이러한 과제를 해결하기 위해 Bayer는 Preclinical Information Center(PRINCE) 플랫폼을 개발했습니다. PRINCE는 전임상 데이터에 대한 통합 게이트웨이로 구상되었으며, 초기에는 수천 개의 비임상 연구 보고서를 통합하고 구조화된 연구 메타데이터를 "검색 가능"한 방식으로 노출하는 데 중점을 두었습니다. 이 초기 단계에서는 사용자가 고급 필터를 적용하고 주로 구조화된 연구 메타데이터에서 정보를 검색할 수 있었습니다. 그러나 Bayer의 귀중한 전임상 지식의 상당 부분은 수십 년간 축적된 비구조화된 PDF 연구 보고서에 존재합니다. 수년에 걸친 수많은 시스템 마이그레이션으로 인해 이러한 보고서와 관련된 구조화된 메타데이터가 불완전하거나 누락되거나 심지어 잘못된 주석이 포함될 수 있었습니다. 결정적으로, 권위 있는 "골드 표준" 정보는 승인된 PDF 연구 보고서에 일관되게 존재했습니다. 생성형 AI, 특히 RAG의 출현은 이 풍부한 비구조화된 데이터를 활용할 수 있는 열쇠를 제공했습니다. RAG 기능을 통합함으로써 PRINCE는 필터 기반 '검색' 도구에서 자연어 '질문' 시스템으로 패러다임을 전환하기 시작하여 연구원이 이러한 연구 보고서의 내용을 직접 쿼리할 수 있게 되었습니다. 이러한 진화는 PRINCE가 세 가지 뚜렷한 단계를 거쳤음을 반영합니다. 검색: 초기 단계는 수천 개의 비임상 연구 보고서에 대한 통합 게이트웨이를 만드는 데 중점을 두어 다양한 전임상 도메인의 여러 사내 데이터 사일로를 주로 구조화된 메타데이터를 활용하는 검색 가능한 형식으로 통합했습니다. 질문: 이 단계에서는 검색 증강 생성(RAG)을 활용하는 AI 기반 질문 답변 시스템이 도입되었습니다. 이를 통해 연구원은 자연어로 질문을 하여 스캔된 PDF를 포함한 비구조화된 데이터에서 직접 통찰력을 얻을 수 있었습니다. 수행: 현재 단계는 PRINCE를 복잡한 작업을 실행할 수 있는 능동적인 연구 조교로 자리매김합니다. 이는 다중 에이전트 시스템을 통합하여 플랫폼이 복잡한 쿼리를 처리하고 워크플로를 조정하며 규제 문서 초안 작성과 같은 활동을 지원할 수 있도록 합니다. 검색에서 질문, 수행으로의 이러한 의도적인 진화는 효율성과 혁신에 대한 업계의 요구에 대한 전략적 대응을 나타냅니다. PRINCE는 연구원에게 전임상 데이터에 접근, 분석 및 조치할 수 있는 점점 더 강력한 도구를 제공함으로써 더 빠른 데이터 기반 의사 결정을 가능하게 하고 불필요한 실험의 필요성을 줄이며 궁극적으로 더 안전하고 효과적인 치료법 개발을 가속화하는 것을 목표로 합니다.
### 시스템 아키텍처: 안정적인 에이전트 RAG 시스템 엔지니어링
PRINCE 시스템은 강력한 백엔드 인프라로 구동되는 대화형 UI로 작동합니다. 복잡한 쿼리를 처리하고 정확하고 컨텍스트 풍부한 답변을 제공하도록 설계된 아키텍처는 LangGraph를 사용하여 오케스트레이션되고 FastAPI 애플리케이션을 통해 제공됩니다. 시스템은 사용자의 요청을 처리하는 대화형 UI, LangGraph 기반 오케스트레이션 계층, 벡터 표현을 저장하는 OpenSearch, 구조화된 데이터를 위한 Athena, 상태 지속성을 위한 PostgreSQL 및 DynamoDB를 포함합니다. LLM은 OpenAI, Anthropic, Google 및 오픈 소스 제공업체의 모델을 활용하며, 모든 모델은 단일 OpenAI 호환 엔드포인트를 통해 노출됩니다. 시스템은 Cloudwatch 및 Langfuse와 같은 도구를 사용하여 성능 및 안정성을 모니터링하며, RAGAS 평가 프레임워크를 사용하여 평가를 수행합니다. 에이전트 워크플로는 사용자 의도 명확화, 생각 및 계획, 연구 수행(RAG 및 Text-to-SQL 사용), 데이터 완료 유효성 검사, 최종 응답 생성으로 구성됩니다. 컨텍스트 엔지니어링은 각 에이전트 단계에 적절한 컨텍스트를 제공하여 컨텍스트 오염을 줄이고 디버깅 및 평가를 용이하게 합니다. Resilency는 여러 LLM 제공업체 간의 자동 재시도 및 대체 메커니즘을 통해 보장됩니다.
### 에이전트 RAG 시스템: 복잡한 쿼리 처리
PRINCE의 에이전트 RAG 시스템은 여러 단계, 추론 및 다양한 도구 또는 데이터 소스와의 상호 작용이 필요한 복잡한 사용자 요청을 처리합니다. LangGraph를 사용하여 구현된 이 시스템은 전체 워크플로를 오케스트레이션하고 특정 작업을 위해 Researcher Agent, Writer Agent 및 Reflection Agent를 활용합니다. 사용자 의도 명확화 단계는 모호성을 방지하는 첫 번째 방어선 역할을 하며, 사용자가 올바른 도구를 선택하도록 돕기 위해 명확한 질문을 합니다. Think & Plan 단계는 프로세스 반성을 수행하여 에이전트가 목표를 향해 올바른 궤적에 있는지 평가합니다. Researcher Agent는 비구조화된 데이터에 대한 RAG와 구조화된 데이터에 대한 Text-to-SQL을 모두 사용하여 정보를 수집합니다. RAG 파이프라인은 PDF 보고서에서 텍스트를 추출, 청크화, 임베딩 및 인덱싱하는 포괄적인 수집 프로세스를 포함합니다. 쿼리 시 RAG 파이프라인은 키워드 추출, 메타데이터 필터 생성, 쿼리 확장, 하이브리드 검색(메타데이터 필터링, kNN, 키워드 검색 결합) 및 재순위화를 통해 관련성 높은 정보를 검색합니다. Text-to-SQL은 자연어 쿼리를 SQL로 변환하고, 동적 소수점 프롬프팅 및 스키마 이해를 통해 정확한 쿼리를 생성합니다. Reflection Agent는 검색된 데이터가 질문에 답하기에 충분하고 관련성이 있는지 평가하여 데이터 반성을 수행합니다. Writer Agent는 검색된 증거를 최종 사용자 답변으로 합성하고, 인용을 포함하며, 서식 요구 사항을 준수합니다.
### 신뢰 구축: 투명성, 설명 가능성 및 평가
PRINCE는 사용자 신뢰를 구축하기 위해 투명성과 설명 가능성을 보장하는 데 중점을 둡니다. 시스템은 중간 단계, 사용된 쿼리 및 도구를 사용자에게 표시하여 워크플로에 대한 가시성을 제공합니다. 또한 생성된 답변은 원본 소스 문서 및 구조화된 메타데이터를 참조하는 강력한 인용 메커니즘을 통해 사실 확인을 용이하게 합니다. 사용자는 답변의 특정 문장에 대한 출처를 쉽게 확인할 수 있습니다. 엄격한 평가는 PRINCE의 성능과 신뢰성을 보장하는 데 필수적입니다. 데이터셋 평가는 코어 워크플로, 프롬프트 또는 기본 모델에 대한 상당한 변경이 있을 때 수행되며, 주관 전문가가 준비한 사전 정의된 참조 답변을 사용합니다. 라이브 트래픽 평가는 실제 사용자 쿼리에 대해 매일 수행되어 실제 성능에 대한 통찰력을 제공합니다. Langfuse와 같은 플랫폼을 통한 지속적인 모니터링은 잠재적인 편향, 오류 또는 개선 영역을 식별하여 시스템의 신뢰성과 안전성을 보장합니다.
### 회복탄력성 엔지니어링 및 데이터 품질 향상
PRINCE는 복잡한 다단계 워크플로의 오류 처리를 위해 강력한 복구 메커니즘을 통합합니다. 여기에는 에이전트 상태 및 애플리케이션 상태의 영구 저장, 자동 재시도, 사용자 시작 재시도 및 LLM 대체 기능이 포함됩니다. LangGraph 프레임워크는 워크플로 상태 관리 및 오류 처리에 대한 지원을 제공합니다. 또한, PRINCE는 구조화된 메타데이터의 정확성과 완전성을 보장하기 위해 명명된 개체 인식(NER)을 사용하여 연구 보고서에서 직접 주석을 추출하고 생성하는 유틸리티 시스템을 개발했습니다. 이 시스템은 데이터 파이프라인에 통합되어 Amazon Athena 데이터베이스의 데이터를 자동으로 수정하고 풍부하게 합니다. 고신뢰도 점수가 있는 필드는 자동으로 업데이트되고 낮은 신뢰도 점수가 있는 필드는 수동 검토를 위해 격리되어 데이터 정확성을 보장합니다.
### 가치와 인사이트
PRINCE는 제약 산업에서 생성형 AI, 특히 RAG 및 다중 에이전트 시스템의 실질적인 가치를 보여줍니다. 이 플랫폼은 복잡하고 방대한 전임상 데이터를 효과적으로 관리하고 분석함으로써 신약 개발 프로세스를 가속화하고 연구 효율성을 크게 향상시킬 수 있습니다. 투명성, 설명 가능성 및 강력한 오류 처리 메커니즘을 통해 사용자 신뢰를 구축하는 데 중점을 둔 접근 방식은 엔터프라이즈 환경에서 AI 시스템의 성공적인 채택에 필수적입니다. PRINCE는 컨텍스트 엔지니어링과 하네스 엔지니어링의 중요성을 강조하며, 이는 AI 시스템의 신뢰성과 제어 가능성을 보장하는 데 핵심적인 역할을 합니다. 이 사례 연구는 AI가 규제 준수 및 데이터 무결성이 중요한 분야에서 어떻게 복잡한 문제를 해결하고 혁신을 주도할 수 있는지에 대한 귀중한 통찰력을 제공합니다.
### 기술·메타
- LangGraph
- FastAPI
- React
- OpenSearch
- Amazon Athena
- PostgreSQL
- DynamoDB
- OpenAI, Anthropic, Google, Open-source LLMs
- Cloudwatch
- Langfuse
- RAGAS evaluation framework
- Named Entity Recognition (NER)
### 향후 전망
PRINCE의 지속적인 발전은 사용자 피드백, 모니터링 데이터 및 과학자 통찰력을 기반으로 한 반복적인 개발에 달려 있습니다. 향후에는 모델 기능이 향상됨에 따라 하네스의 일부가 더 얇아지거나 기본 모델 기능으로 통합될 수 있습니다. 그러나 엔터프라이즈 연구 시스템, 특히 신뢰성, 추적성 및 검토 가능성이 중요한 시스템에서는 컨텍스트, 워크플로 상태, 복구, 반성 및 검증에 대한 명시적인 제어가 계속해서 필수적일 것입니다. 경쟁 환경에서 PRINCE는 지속적으로 새로운 데이터 소스를 통합하고, 에이전트의 능력을 미세 조정하며, RAG 및 Text-to-SQL과 같은 검색 기술을 최적화하여 더 빠르고 정확한 통찰력을 제공할 것입니다. 커뮤니티 측면에서는 이러한 시스템의 개발 및 개선에 대한 경험과 교훈을 공유하는 것이 업계 전반의 AI 채택을 더욱 촉진할 것입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48615680)
- 원문: [링크 열기](https://martinfowler.com/articles/reliable-llm-bayer.html)
---
출처: Hacker News · [원문 링크](https://martinfowler.com/articles/reliable-llm-bayer.html)
신고 · 불법·유해·아동 안전(CSAE) 관련 콘텐츠

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.