Article Weekly, Issue 42
|Period
2024-10-13
~ 2024-10-19
Counterintuitive Properties of High Dimensional Space
- 고차원 공간의 직관적 이해 부족
- 3차원에서의 기하학적 직관은 고차원에서는 잘 적용되지 않으며, 단순한 도형조차도 매우 직관에 반하는 특성을 보인다.
- 구와 큐브의 고차원 아날로그
- 2차원에서 원은 1-구로, 3차원에서 구는 2-구로 불린다. 고차원에서는 일반적으로 d-구라고 한다.
- 정사각형과 정육면체는 각각 고차원의 큐브로 확장된다.
- 고차원에서의 내접 구
- 2차원과 3차원에서는 내접 구가 큐브 안에 완전히 포함되지만, 차원이 증가하면 내접 구가 큐브 밖으로 튀어나오기 시작한다.
- 예를 들어, 4차원에서는 내접 구가 큐브의 면에 닿으며, 5차원 이상에서는 밖으로 돌출된다.
- 고차원의 구 부피
- d-구의 부피는 차원이 증가함에 따라 감소하여, 고차원에서는 거의 부피를 가지지 않는다.
- 부피는 차원이 6 이상일 때 급격히 감소한다.
- 고차원의 구 표면적 분포
- 고차원에서 구의 표면적 대부분은 적도 근처에 집중된다.
- 차원이 증가할수록 적도 주변의 표면적이 더 작아진다.
- 키싱 넘버 문제
- 키싱 넘버는 한 구를 둘러싸며 접촉할 수 있는 다른 구의 최대 개수를 의미한다.
- 2차원에서는 키싱 넘버가 6이고, 3차원에서는 12이다. 그러나 고차원에서는 정확한 값을 알기 어렵다.
- 일부 차원에서는 정확한 키싱 넘버를 알고 있다.
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data
- 문제 배경
- 대형 언어 모델(LLMs)은 수학적 추론에서 잠재력을 보이지만, 공식적인 정리 증명에서는 훈련 데이터 부족으로 발전이 제한됨.
- 제안된 접근법
- 고등학교 및 대학 수준의 수학 경시대회 문제로부터 Lean 4 증명 데이터를 대규모로 생성.
- 자연어 문제를 공식 문장으로 변환하고, 저품질 문장을 필터링하여 증명을 생성하는 방식으로 합성 데이터를 만듦.
- 모델 및 데이터셋:
- DeepSeekMath 7B 모델을 이 합성 데이터셋(8백만 개의 공식 문장과 증명 포함)으로 미세 조정.
- Lean 4 miniF2F 테스트에서 64개의 샘플로 전체 증명 생성 정확도 46.3%, 누적 정확도 52% 달성.
- 성과 비교:
- GPT-4의 23.0% 및 트리 검색 강화 학습 방법의 41.0%를 초과하는 성과.
- Lean 4 Formalized International Mathematical Olympiad (FIMO) 벤치마크에서 148개 문제 중 5개를 성공적으로 증명(GPT-4는 실패).
- 결론 및 기여
- 대규모 합성 데이터를 활용하여 LLM의 정리 증명 능력을 향상시킬 가능성을 입증.
- 연구를 촉진하기 위해 합성 데이터셋과 모델을 공개할 예정.
Mutable vs. Immutable: Infrastructure Models in the Cloud Era
- 변경 가능한 인프라(Mutable Infrastructure)
- 초기 배포 후에도 시스템을 변경하거나 업데이트할 수 있어 유연성을 제공.
- 구성 드리프트에 취약하며, 시간이 지남에 따라 일관성을 유지하기 어려움.
- 빠른 업데이트가 필요한 환경, 비용 민감한 환경, 상태를 유지해야 하는 애플리케이션에 적합.
- 운영 오버헤드가 증가할 수 있으며, 장기적으로 유지되는 인프라에 적합.
- 불변 인프라(Immutable Infrastructure)
- 배포 후 변경할 수 없으며, 업데이트 시 기존 인프라를 새로운 버전으로 교체하여 일관성을 보장.
- 구성 드리프트를 제거하고, 매 배포마다 동일한 상태를 유지하여 높은 일관성을 제공.
- 프로덕션 환경, 보안이 중요한 설정, 확장 가능한 애플리케이션에 최적.
- 롤백과 재해 복구가 간단하며, 짧은 수명의 인프라와 관련.
- 하이브리드 접근법
- 두 모델의 장점을 결합하여 유연성과 일관성을 모두 제공.
- 무상태 서비스에는 불변 인프라를 사용하고, 상태가 있는 서비스나 레거시 시스템에는 변경 가능한 인프라를 사용.
- Terraform과 같은 도구로 두 모델을 동시에 관리하여 하이브리드 접근법을 효과적으로 구현 가능.
- 다양한 애플리케이션 요구 사항에 맞춘 확장 전략과 재해 복구를 단순화.
Event-Driven vs Event-Sourced: A Common Misunderstanding
- 이벤트 주도 아키텍처(Event-Driven Architecture, EDA)
- 시스템의 다양한 구성 요소 간의 비동기적 통신을 위해 이벤트를 사용.
- 이벤트는 발행-구독 방식으로 처리되며, 발행자는 소비자의 응답을 기다리지 않음.
- 여러 소비자가 동시에 동일한 이벤트를 처리할 수 있으며, 각 소비자는 이벤트의 사본을 받음.
- 시스템 상태는 즉시 반영되지 않을 수 있으며, 결국 일관성을 가짐.
- 메시지 브로커를 통해 이벤트를 전송하는 경우가 많음.
- 도메인 이벤트(내부)와 통합 이벤트(구성 요소 간 통신)로 구분됨.
- 이벤트 소싱(Event Sourcing, ES)
- 상태 변경을 반영하고 엔티티의 상태를 재구성하기 위해 이벤트를 사용.
- 도메인 작업 완료 시 특정 엔티티에 연결된 이벤트 스트림으로 저장됨.
- 예를 들어, 쇼핑 바구니에서 수행된 작업은 일련의 이벤트로 기록되어 바구니 상태를 재구성하는 데 사용됨.
- 새로운 이벤트는 트랜잭션 방식으로 저장되며, 일부만 저장되지 않음.
- 이벤트는 특정 엔티티에 엄격히 연결되어 있으며, 다른 프로세스가 동시에 스트림에 이벤트를 추가하면 새로운 이벤트가 저장되지 않음.
- 차이점과 상호 보완적 관계
- EDA는 통신을 위한 아키텍처 스타일이고, ES는 엔티티 상태의 지속성을 위한 메커니즘으로 서로 다른 측면을 다룸.
- 두 접근 방식은 서로 배타적이지 않으며, 종종 함께 사용되어 상호 보완적 역할을 함.
- ES를 사용하는 구성 요소는 비즈니스 로직을 처리하고, EDA 참여 구성 요소에 관심 있는 이벤트를 발행하여 통합할 수 있음.