Article Weekly, Issue 36
|Period
2024-09-01
~ 2024-09-07
Open Mathematics Depository
- 오픈 수학 저장소
- 여러 pdf 가 모여있음
Notes on Distributed Systems for Young Bloods
- 분산 시스템은 빈번한 장애, 특히 부분 장애로 인해 다름
- 견고한 분산 시스템은 단일 기계 시스템보다 개발 및 테스트 비용이 더 높음
- 오픈소스 분산 시스템은 자원 제약으로 인해 덜 흔함
- 가능한 기계 간 조정을 최소화해야 함
- 단일 기계의 메모리에 맞는 문제는 상대적으로 간단함
- 성능 문제(“느리다”)의 디버깅은 매우 어려움
- 과부하 처리를 위해 시스템 전체에 백프레셔를 구현
- 가능한 경우 부분적 가용성을 위해 설계
- 시스템 동작 이해를 위해 메트릭이 중요함
- 더 정확한 통찰을 위해 평균 대신 백분위수 사용
- 시스템 용량 요구사항 추정 방법 학습
- 점진적 인프라 롤아웃을 위해 기능 플래그 사용
- ID 공간이 시스템 아키텍처를 형성하므로 신중히 선택
- 효율성을 위해 데이터 지역성 활용
- 캐시된 데이터를 영구 저장소에 다시 쓰는 것을 피함
- 현대 컴퓨터는 많은 사람들이 생각하는 것보다 더 능력이 있음
- CAP 정리를 사용하여 시스템 설계 비평
- 캡슐화와 배포 개선을 위해 서비스 추출
AI-Implanted False Memories
- AI가 인간의 거짓 기억에 미치는 영향을 조사한 연구
- 범죄 목격자 인터뷰를 시뮬레이션하여 인간-AI 상호작용에서 유도적 질문을 통한 거짓 기억 형성을 탐구함
- 4가지 조건(대조군, 설문 기반, 사전 스크립트 챗봇, 생성형 챗봇)을 테스트
- 200명의 참가자가 범죄 영상을 시청한 후 AI 인터뷰어나 설문과 상호작용하며 질문에 답함
- 생성형 챗봇 조건에서 거짓 기억 형성이 크게 증가
- 대조군보다 3배 이상 많은 즉각적 거짓 기억 유도
- 설문 방식보다 1.7배 많은 거짓 기억 유도
- 사용자 응답의 36.4%가 상호작용을 통해 오도됨
- 1주일 후에도 생성형 챗봇이 유도한 거짓 기억의 수는 일정하게 유지
- 1주일 후에도 이러한 거짓 기억에 대한 확신은 대조군보다 높게 유지
- 거짓 기억에 더 취약한 사용자 특성
- 챗봇에 덜 익숙하지만 AI 기술에 더 익숙한 사용자
- 범죄 수사에 더 관심이 있는 사용자
- 이 연구 결과는 경찰 인터뷰와 같은 민감한 상황에서 고급 AI 사용의 잠재적 위험을 강조하며, 윤리적 고려의 필요성을 강조함
Using GPT-4o for web scraping
- OpenAI의 GPT-4o를 이용한 AI 기반 웹 스크래핑 실험에 대한 내용
- 구조화된 출력 기능을 활용하여 HTML 문자열에서 데이터를 추출하는 방법을 탐구
- Pydantic 모델을 사용하여 파싱된 데이터의 구조를 정의
- 복잡한 테이블(예: 10일 날씨 예보)도 성공적으로 파싱할 수 있었음
- 위키피디아의 병합된 행이 있는 테이블에서는 모델이 제대로 작동하지 않았음
- XPath를 반환하도록 모델에 요청하는 방법을 시도했으나, 결과가 좋지 않았음
- 데이터 추출과 XPath 생성을 결합한 접근 방식이 더 효과적이었음
- GPT-4o 사용 비용이 매우 높아 HTML 문자열 정리 등의 최적화가 필요
- Streamlit을 사용한 데모를 제작하여 GitHub에 소스 코드를 공개
- AI 기반 웹 스크래핑 도구의 잠재력을 확인했지만, 비용 문제가 큰 과제
The Art of Finishing
- 개인 프로젝트에 대한 내용
- 프로젝트 하이드라 효과
- 진전을 이루어도 새로운 도전이 계속 생겨남
- 프로젝트 하이드라의 유혹
- 프로젝트가 진행 중일 때는 무한한 가능성을 가지고 있음
- 프로젝트를 “완료"로 선언하는 순간, 외부와 내부의 비판에 노출됨
- 새로운 아이디어의 흥분과 완성에 대한 두려움이 프로젝트 지연을 유발함
- 미완성 프로젝트는 잠재력이 있어 더 흥미롭게 느껴짐
- 새로운 프로젝트를 시작하는 것이 완료하는 것보다 쉽고 더 생산적으로 느껴짐
- 뭔가를 하고 있는 한 생산적이라는 착각을 줌
- 개인 프로젝트에는 마감일이 없어 완벽주의에 빠지기 쉬움
- 성공에 대한 두려움도 존재함
- 프로젝트 하이드라 길들이기 전략
- “완료” 정의하기
- 프로젝트 시작 전에 “완료"가 무엇인지 명확히 정의하고, 이를 문서화하여 범위 확장을 방지함
- MVP 수용하기
- 완벽을 목표로 하지 않고 “충분히 좋은” 상태를 목표로 함. 기본 버전을 먼저 출시하고 나중에 개선함
- 프로젝트 시간 제한
- 프로젝트에 마감일을 설정하여 긴급성을 부여하고 기능 확장을 방지함
- 작은 일 완료 연습
- 작은 프로젝트나 작업을 정기적으로 완료하여 “완료하는 근육"을 키움
- 아이디어와 구현 분리
- 새로운 아이디어가 떠오르면 즉시 실행하지 않고 아이디어 로그에 기록함
- 완료 축하하기
- 프로젝트를 완료할 때마다 축하하여 긍정적인 강화 효과를 얻음
- 책임감 수용
- 프로젝트 완료에 대한 책임감을 가지기 위해 파트너를 찾거나 공개적으로 약속함
- “완료” 정의하기
- 습관과 사고 방식을 바꾸는 데 시간이 걸리고 일관된 노력이 필요함
- 새로운 프로젝트의 유혹이나 불완전함에 대한 두려움이 있을 수 있음
- “완료하는 근육"을 키우는 것이 중요함
- 프로젝트 하이드라를 정면으로 마주하고, 계획을 멈추고 실행할 것
conservative gc can be faster than precise gc
- 보수적(conservative) GC가 정밀(precise) GC보다 빠를 수 있다는 주장을 제시
- 정밀 GC의 단점
- 컴파일러가 GC 맵을 생성해야 함
- 런타임 시 GC 맵 해석 필요
- 스택 프레임 생성/해제 시 오버헤드 발생
- 보수적 GC의 장점
- 컴파일러 복잡성 감소
- 런타임 오버헤드 감소
- 스택 프레임 처리 간소화
- 보수적 GC의 단점
- 메모리 누수 가능성
- 객체 재배치 불가능
- 저자의 주장
- 대부분의 경우 보수적 GC가 충분히 효과적
- 메모리 누수는 실제로 큰 문제가 되지 않음
- 객체 재배치의 이점이 과대평가됨
- 결론
- 보수적 GC는 여전히 유효한 선택지
- 정밀 GC의 복잡성과 오버헤드를 고려해야 함
- GC 선택 시 실제 성능 측정이 중요
- 저자는 이 주제에 대한 추가 연구와 토론을 권장합니다.
References
- https://openmathdep.tuxfamily.org/
- https://www.somethingsimilar.com/2013/01/14/notes-on-distributed-systems-for-young-bloods/
- https://www.media.mit.edu/projects/ai-false-memories/overview/
- https://blancas.io/blog/ai-web-scraper/
- https://www.bytedrum.com/posts/art-of-finishing/
- https://wingolog.org/archives/2024/09/07/conservative-gc-can-be-faster-than-precise-gc