Article Weekly, Issue 37
|Period
2024-09-08
~ 2024-09-14
GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation
- Google Scholar에서 일반적으로 사용되는 GPT 모델로 생성된 것으로 보이는 다수의 의심스러운 논문이 쉽게 발견되고 있음
- 이러한 논문들은 주로 널리 사용되는 범용 AI 애플리케이션, 특히 ChatGPT를 사용해 만들어지며 과학적인 글쓰기를 모방함
- Google Scholar는 이런 의심스러운 논문을 평판 있고 품질이 관리되는 연구 논문과 같이 나열함
- Google Scholar에서 발견된 의심스러운 GPT 생성 과학 논문 샘플을 분석한 결과, 많은 논문이 환경, 건강, 컴퓨팅 등 디지털 디스인포메이션에 취약한 응용 분야를 다룸
- 정치적으로 갈등이 큰 영역에서 악의적인 증거 조작 가능성이 높아지는 것은 점점 더 우려스러운 문제임
- 발견 사항
- 139개의 GPT로 생성된 의심스러운 논문이 Google Scholar 검색 결과에서 일반 논문으로 나열됨
- 비색인 저널이 많음
- GPT로 생성된 의심스러운 논문은 온라인으로 배포되며 학술 커뮤니케이션 인프라 전반에 퍼져 있고, 여러 사본으로 존재하는 경우가 많음
- 실무적 시사점이 있는 응용 분야가 지배적
- Google Scholar는 품질 관리된 인용 DB와 그렇지 않은 인용 DB의 결과를 동일한 인터페이스로 제시하므로 GPT로 생성된 의심스러운 논문에 제한 없이 접근할 수 있음
- 139개의 GPT로 생성된 의심스러운 논문이 Google Scholar 검색 결과에서 일반 논문으로 나열됨
QUIC is not Quick Enough over Fast Internet
- QUIC은 웹 애플리케이션 성능 향상에 획기적인 변화를 가져올 것으로 기대되는 프로토콜이지만, 성능이 기대에 못 미침
- 이 논문에서는 고속 네트워크에서 QUIC의 성능을 체계적으로 분석
- 초록
- 고속 인터넷에서 UDP+QUIC+HTTP/3 스택은 TCP+TLS+HTTP/2에 비해 최대 45.2%의 데이터 전송률 감소를 보임
- QUIC과 HTTP/2 간 성능 격차는 기본 대역폭이 증가할수록 커짐
- 이 문제는 경량 데이터 전송 클라이언트와 주요 웹 브라우저(Chrome, Edge, Firefox, Opera), 다양한 호스트(데스크톱, 모바일), 다양한 네트워크(유선 브로드밴드, 셀룰러)에서 관찰됨
- 파일 전송뿐 아니라 비디오 스트리밍(최대 9.8% 비디오 비트레이트 감소), 웹 브라우징 등 다양한 애플리케이션에 영향을 미침
- 엄격한 패킷 추적 분석과 커널 및 사용자 공간 프로파일링을 통해 근본 원인을 확인함
- 특히 과도한 데이터 패킷과 QUIC의 사용자 공간 ACK로 인한 수신자 측 처리 오버헤드가 높음
- 관찰된 성능 문제를 완화하기 위한 구체적인 권장 사항을 제시함
Your company needs Junior devs
- 주니어 엔지니어를 고용해야 하는 이유
- 최근 빅테크 기업들은 주로 “즉시 투입 가능한” 스태프 개발자들을 선호함
- AI가 주니어 개발자를 완전히 대체할 것이라는 의견이 많음
- 그러나 주니어 직원의 존재 이유는 단순한 노동력 제공이 아닌, 심리적으로 안전한 문화와 혁신을 촉진하는 데 있음
- 주니어 인재가 팀에 미치는 영향
- 주니어 인재는 팀이 가르치고, 코칭하고, 협력하도록 강제함
- Nonaka와 Takeuchi의 ‘The Knowledge-Creating Company’에서 일본 기업들이 지식 창출에 집중하여 혁신을 이끌었다고 주장함
- 혁신적인 기업은 지식을 가르치고, 확산시키고, 공유하는 것을 우선시함
- 지식 발견 자체가 혁신임
- 주니어는 회사의 지식을 흡수하고 재처리하여 명시적인 지식으로 변환함
- 주니어는 팀의 중복성을 제공하여, 버그 수정 및 야간 근무 등의 단순한 팀 필요를 충족시킴
B-trees and database indexes
- B-tree는 데이터베이스 관리 시스템에서 인덱스에 널리 사용되는 데이터 구조
- B-tree는 키와 값 쌍을 저장하며, 노드와 자식 포인터로 구성
- B+tree는 B-tree의 변형으로, 데이터베이스 인덱스에 더 적합
- 키/값 쌍은 리프 노드에만 저장됩니다
- 리프가 아닌 노드는 키와 자식 포인터만 저장
- MySQL의 InnoDB 엔진은 B+tree를 사용하여 모든 테이블 데이터를 저장
- 프라이머리 키 선택은 B+tree 구조와 성능에 중요한 영향을 미침
- 순차적 정수(auto-increment)는 삽입과 순차 읽기에 효율적
- UUIDv4와 같은 랜덤 값은 삽입 시 더 많은 노드 방문을 필요
- 키 크기도 중요한 고려사항
- 작은 키를 사용하면 노드당 더 많은 키를 저장할 수 있어 트리 깊이가 줄어듬
- InnoDB는 16KB 페이지 단위로 데이터를 읽고 쓰며, 버퍼 풀을 사용해 디스크 I/O를 최소화함
- 프라이머리 키와 인덱스 선택 시 삽입 패턴, 읽기 패턴, 키 크기 등을 고려해야 함
- 상당히 교육적인 자료이므로 나중에 다시 보기를 강력 추천함
Google Illuminate
- Google Illuminate는 AI를 사용하여 콘텐츠를 학습 선호도에 맞게 조정하는 실험적 기술임
- 선택한 논문의 핵심 사항을 논의하는 두 명의 AI 생성 음성으로 오디오를 작성
- 퍼블리시된 컴퓨터 과학 논문에 최적화되어 있음
- 모든 토론과 음성은 AI가 생성함
- 각 오디오 대화는 제목, 저자 및 URL 하이퍼링크를 포함하여 논의하는 출판된 학술 논문에 대한 정보를 표시
Yaak Is Now Open Source
- 3개월 전에 Yaak이 오픈 소스가 되지 않을 이유에 대해 설명하는 글 “Why Not Open Source"를 공개했음
- 과거 오픈 소스 프로젝트에서 번아웃을 경험했기에 다른 이들에게 의사 결정 과정이 도움이 될 것이라 생각하고 공유함
- Yaak 사용자들은 대부분 동의했지만, 더 넓은 오픈 소스 커뮤니티에서는 대부분의 내용에 강하게 반대함
- 오픈 소스 커뮤니티의 반응
- “오픈 소스/자유 소프트웨어를 깃허브의 특정 사회적 모델이나 기여와 혼동하지 마라” - lobste.rs
- 오픈 소스의 장점
- 오픈 소스가 반드시 오픈 컨트리뷰션을 의미하지는 않음
- 코드를 공개하는 것만으로도 대부분의 장점을 얻을 수 있음
- 보안 감사에 개방
- 투명한 기능 (수상한 것 없음)
- 유연성 (포크하고 수정할 수 있음)
- 개발자가 떠나도 실행 가능
Introducing OpenAI o1
- 복잡한 문제를 해결하기 위한 새로운 추론 모델
- 모델이 응답하기 전에 문제를 더 오래 생각하도록 훈련됨
- 훈련을 통해 사고 과정을 개선하고, 다양한 전략을 시도하며, 실수를 인식하는 법을 배움
- 물리학, 화학, 생물학의 도전적인 벤치마크 작업에서 박사과정 학생과 유사한 성능을 보임
- 수학과 코딩에서도 뛰어난 성적을 보임
- 국제수학올림피아드(IMO) 예선 시험에서 GPT-4o는 13%만 맞춘 반면, 추론 모델은 83%를 맞춤
- Codeforces 대회에서 코딩 능력이 89백분위수에 도달
- 안전성
- 새로운 안전 교육 접근 방식을 고안하여 모델이 안전 및 정렬 지침을 준수하도록 함
- 가장 어려운 탈옥 테스트 중 하나에서 GPT-4o는 22점(100점 만점)을 받은 반면, o1-preview 모델은 84점을 받음
- 안전 작업, 내부 거버넌스, 연방 정부 협력을 강화함
- Preparedness Framework를 사용한 엄격한 테스트 및 평가
- 최고 수준의 레드 팀 운영
- Safety & Security Committee를 포함한 이사회 수준의 검토 프로세스
- 미국 및 영국 AI 안전 연구소와 협약을 체결하고 운영을 시작함
Learning to Reason with LLMs
- OpenAI는 복잡한 추론을 수행할 수 있는 새로운 대규모 언어 모델 OpenAI o1을 소개
- o1은 강화학습을 통해 훈련되었으며, 답변하기 전에 긴 내부 사고 과정을 거침
- 주요 성과:
- 경쟁 프로그래밍 문제에서 89번째 백분위 순위
- 미국 수학 올림피아드 예선에서 상위 500명 내 성적
- 물리, 생물, 화학 문제에서 PhD 수준 이상의 정확도
- o1의 성능은 더 많은 강화학습(학습 시간)과 더 긴 사고 시간(테스트 시간)에 따라 일관되게 향상됨
- 다양한 인간 시험과 ML 벤치마크에서 GPT-4o보다 우수한 성능을 보임
- 사고 과정을 통해 o1은 실수를 인식하고 수정하며, 복잡한 단계를 단순화하고, 다른 접근 방식을 시도하는 법을 학습
- 프로그래밍 기술을 더욱 향상시킨 모델은 2024년 국제 정보 올림피아드에서 49번째 백분위에 랭크됨
- o1-preview는 추론이 중요한 영역에서 사람들이 선호하는 것으로 나타남
- 사고 과정 추론은 안전성과 정렬을 위한 새로운 기회를 제공
- OpenAI는 사용자에게 원시 사고 과정을 보여주지 않기로 결정했지만, 모델이 유용한 아이디어를 답변에 포함하도록 훈련시킴
Notes on OpenAI’s new o1 chain-of-thought models
- OpenAI는 새 프리뷰 모델인 o1-preview 와 o1-mini(미니는 프리뷰가 아님)를 출시, 이전 코드명 ‘strawberry’
- Chain-of-Thought 방식으로 학습됨
- OpenAI는 이 모델들이 응답하기 전에 더 많은 시간을 “생각"하도록 설계되었다고 설명함
- 이 새로운 모델들은 “단계별로 생각하기” 프롬프팅 패턴의 전문화된 확장으로 볼 수 있음
- OpenAI의 “Learning to Reason with LLMs” 글에서는 새 모델들이 강화 학습을 통해 생각의 연쇄를 개선하고 전략을 세련되게 다듬는 법을 배운다고 설명함
- 이는 모델이 백트래킹과 다음 토큰 예측 이상의 “사고"를 필요로 하는 복잡한 프롬프트를 더 잘 처리할 수 있음을 의미함
- API 문서의 저수준 세부 정보
- 이미지 입력, 함수 호출, 일관되게 빠른 응답 시간이 필요한 애플리케이션의 경우 GPT-4o 및 GPT-4o 미니 모델이 계속 적합한 선택이 될 것임
- 깊은 추론을 요구하고 더 긴 응답 시간을 수용할 수 있는 애플리케이션을 개발하는 경우 o1 모델이 훌륭한 선택이 될 수 있음
- 새로운
o1-preview
와o1-mini
모델에 대한 API 액세스는 현재 5단계 계정으로 제한됨 - 시스템 프롬프트 지원 없음 - 모델은 기존 챗 완성 API를 사용하지만
user
와assistant
메시지만 보낼 수 있음 - 스트리밍 지원, 툴 사용, 일괄 호출, 이미지 입력도 없음
- 문제 해결에 필요한 추론량에 따라 요청 처리에 몇 초에서 몇 분까지 걸릴 수 있음
- 숨겨진 추론 토큰
- API 응답에서는 보이지 않지만 여전히 청구되고 출력 토큰으로 계산되는 “추론 토큰"이 도입됨
- 새로운 모델에 유용한 프롬프트의 경우 OpenAI는 이러한 토큰에 약 25,000개의 예산을 할당할 것을 제안함
- 출력 토큰 허용량이
o1-preview
의 경우 32,768개,o1-mini
의 경우 65,536개로 크게 증가함 - API 문서의 마지막 팁: 검색 보강 생성(RAG)에서 추가 컨텍스트 제공 시 가장 관련성 높은 정보만 포함하여 모델이 응답을 과도하게 복잡하게 만드는 것을 방지할 것
- 추론 토큰은 API에서 보이지 않음 - 청구는 되지만 실제로 무엇인지는 볼 수 없음
- OpenAI는 이에 대해 두 가지 주요 이유를 설명
- 안전 및 정책 준수 - 중간 단계에 정책을 위반하는 정보가 포함될 수 있는 경우를 피하기 위함
- 경쟁 우위 - 다른 모델이 OpenAI가 투자한 추론 작업에 대해 학습하는 것을 방지하기 위함
- 이 정책 결정에 대해 불만이 있음 - 해석 가능성과 투명성이 중요한데 프롬프트 평가의 주요 세부 사항이 숨겨지는 것은 후퇴로 느껴짐
- 이 모든 것의 새로운 점
- 커뮤니티가 이 모델들을 언제 어디에 적용해야 하는지에 대한 모범 사례를 정리하는 데는 시간이 걸릴 것임
- 나는 앞으로도 주로 GPT-4o(및 Claude 3.5 Sonnet)를 사용할 것으로 예상하지만, 이 새로운 종류의 모델을 통해 LLM을 사용하여 어떤 종류의 작업을 해결할 수 있는지에 대한 우리의 사고 모델을 집단적으로 확장하는 것을 보는 것은 정말 흥미로운 일이 될 것
- 다른 AI 연구소에서도 이 스타일의 Chain-of-Thought 추론을 적용하도록 특별히 훈련된 모델의 자체 버전으로 이러한 결과 중 일부를 복제하기 시작할 것으로 예상됨
- 필자의 생각에 동의하는 바임
- 좀 더 공개적인 논문이나, 추론에 대해 공개하지 않으면, 신뢰성이 생기지 않을 것 같음
References
- https://misinforeview.hks.harvard.edu/article/gpt-fabricated-scientific-papers-on-google-scholar-key-features-spread-and-implications-for-preempting-evidence-manipulation/
- https://arxiv.org/abs/2310.09423
- https://softwaredoug.com/blog/2024/09/07/your-team-needs-juniors
- https://planetscale.com/blog/btrees-and-database-indexes
- https://illuminate.google.com/home?pli=1
- https://yaak.app/blog/now-open-source
- https://openai.com/o1/
- https://openai.com/index/learning-to-reason-with-llms/
- https://simonwillison.net/2024/Sep/12/openai-o1/