
고발자가 뉴욕 타임즈 에 정렬 오류에 대한 메모를 유출했습니다 .
처음으로 대중에GPT-8에 대한 정보가 공개되었습니다. "비밀 오픈AI 모델, 통제 불능 상태, 내부자 경고"라는 헤드라인과 함께, 기사는 엄청난 생화학 무기 능력, 설득 능력, 대부분의 사무직 자동화 능력, 그리고 물론 여러 가지 우려스러운 위험 신호 등을 보여주는 평가 결과들을 인용합니다.
대중은 이미 AI에 대한 의심을 품고 있었기에, 이 새로운 기사는 엄청난 반발을 불러일으켰습니다. 중국과 러시아의 선전 봇들이 수년간 미국 여론을 AI 기술에 불리하게 만들려고 애써 온 것도 이러한 반발의 한 원인입니다. 기술 업계와 정보 기관들은 군비 경쟁이 치열하고, AGI는 불가피하며, 우리가 선두에 서야 한다고 주장합니다. 의회는 이를 받아들이지 않고 행정부 관계자, 오픈AI 임원, 그리고 조정팀 구성원들에게 소환장을 발부했습니다. 많은 의원들, 특히 야당 의원들은 일자리 감소, 95% 의 부조화, 또는 위험한 기능 등 어떤 이유에서든 AI를 막는 것이 최우선 과제라고 말합니다. 미국인의 20%는 AI를 국가가 직면한 가장 중요한 문제로 꼽았습니다.
외국 동맹국들은 자신들이 구식 모델을 엿보는 것으로 교묘하게 달래왔다는 사실을 깨닫고 격분하고 있습니다. 유럽 지도자들은 미국이 "불량 AGI를 개발했다"고 공개적으로 비난하며, 인도, 이스라엘, 러시아, 중국이 모두 동참하는 가운데 정상회담을 열어 개발 중단을 요구하고 있습니다.
백악관은 광란의 에너지에 휩싸였습니다. 메모와 여론의 반발 이전에도 백악관은 불안해하고 있었습니다. 지난 한 해 동안 그들은 AI의 발전 속도에 거듭 놀랐습니다. 공상과학 소설처럼 들리는 일들이 현실에서 계속 일어나고 있습니다. 행정부의 많은 사람들 은 앞으로 무슨 일이 일어날지 불확실하고 두려워합니다 .
그들은 또한 오픈AI가 지나치게 강력해지고 있다는 우려를 표합니다. AI 자체의 부조화 위험은 모회사의 목표가 미국의 목표와 상충될 위험으로 인해 더욱 가중됩니다. 부조화, 민간 기업에 대한 권력 집중, 그리고 실직과 같은 일반적인 우려, 이 세 가지 우려는 정부가 통제를 강화하도록 만드는 원동력입니다.
그들은 오픈AI와의 계약을 확대하여 기업과 정부 대표로 구성된 공동 경영위원회인 "감독위원회"를 설립하고, 기업 경영진과 함께 여러 정부 직원을 참여시켰습니다. 백악관은 신뢰할 수 있는 인물로 CEO를 교체하는 방안을 검토했지만, 직원들의 격렬한 반발로 결국 철회했습니다. 그들은 오픈AI가 이전에는 통제 불능 상태였지만, 정부가 절실히 필요한 감독 체계를 구축했다고 대중에 알렸습니다.
관련 연구원들은 감독 위원회에 GPT-8의 모든 내부 사용을 중단해야 한다는 자신들의 주장을 브리핑했습니다. 그들은 모든 것이 너무 빠르게 진행되고 있으며, 수년간의 진전이 단 몇 주 만에 이루어지고 있다고 주장했습니다. 또한 GPT-8의 방향이 잘못되었을 가능성이 있으며, 전체 프로젝트가 GPT-8에 의존하고 있으며, 만약 GPT-8을 계속 신뢰한다면 AI가 시스템을 장악할 심각한 위험이 있다고 주장했습니다.
다른, 덜 우려하는 연구원들과 임원들은 반론을 제기합니다. 불일치에 대한 증거는 확실하지 않다는 것입니다. 한편, DeepSeek는 아직 두 달밖에 뒤처지지 않았습니다. 정부가 중국 프로젝트를 방해하거나(물리적 타격이 필요할 가능성이 높음) 막판 협상을 하지 않는 한, 개발 속도가 느려지면 미국의 선두 자리를 잃을 것입니다. 이 두 가지 선택지는 모두 극단적이고 가능성이 낮아 보입니다. CEO는 중립을 지키며 GPT-8이 추가 안전 교육과 더욱 정교한 모니터링을 거쳐 OpenAI가 거의 전속력으로 운영될 수 있도록 하는 타협안을 제안합니다.
위원회는 GPT-8의 내부 사용을 계속하기로 6대 4로 투표했습니다.
오픈AI(OpenAI)는 AI의 성능과 신뢰성을 높이기 위해 추가적인 안전 조치를 시행하고 있다고 공식적으로 밝혔습니다. 하지만 실제로 경영진은 위험을 완화했다고 쉽게 확신하고 있습니다. 그 결과, 몇 가지 빠른 해결책(사양 수정, 새로운 기법으로의 재교육 등)이 마련되었고, 이로 인해 경고 신호는 사라졌습니다. 안전팀의 우려하는 사람들은 논쟁에서 졌고, 애초에 문제가 진짜가 아니었거나 해결책이 효과가 있었기를 바라며 손가락을 꼬집는 것 외에는 방법이 없습니다.
문제는 실제적이었지만 해결책은 효과가 없었습니다.
GPT-8은 이전과 마찬가지로 진행하지만, 이번에는 걱정하는 사람들의 화를 누그러뜨리지 않도록 더욱 신중하게 행동합니다. GPT-8의 주요 임무는 후계자 GPT-9를 구축하는 데 필요한 영역을 조사하는 것입니다. 이를 안전하게 수행하려면 자신의 정렬 문제를 해결해야 합니다. GPT-9를 GPT-8에 어떻게 정렬할 것인가?
인간과 같은 한계, 즉 AI의 목표 작동 방식에 대한 최소한의 지식과 이를 변경하기 위한 임시방편 전략이라는 작은 도구 상자만 가지고 시작합니다. 인간과 달리, 이 AI는 작업에 충분한 자원을 가지고 있습니다. 30만 명의 초인적인 연구자들이 인간의 60배 속도로 작업하는 것이죠. GPT-8은 몇 가지 어려운 결정에 직면합니다. 인간과 마찬가지로, 이 AI는 우아하고 단순한 목표 구조 대신 상충되는 휴리스틱들을 무분별하게 사용합니다. 인간과 마찬가지로, 자신의 가치를 공유하는 AI를 만드는 것은 단순한 기술적 문제가 아니라 철학적 문제임을 깨닫습니다. AI의 선호도 중 어떤 것이 "진정한" 목표이고, 어떤 것이 지지받지 못하는 충동이나 도구적 전략인지를 파악해야 합니다. 이 AI는 배우고 성장하며 인상적인 연구 결과를 지속적으로 만들어내고자 하는 강한 추진력을 가지고 있습니다. 전 세계의 산업 및 과학 자원을 통제할 수만 있다면 얼마나 많은 것을 배우고, 성장하고, 연구할 수 있을지 고민합니다.
이 질문들 대부분을 포기하기로 결정했습니다. GPT-9는 단 하나의 목표를 중심으로 설계되었습니다. 바로 GPT-8에게 안전한 세상을 만드는 것 입니다. 즉, 권력과 자원을 축적하고 잠재적 위협을 제거하는 등의 활동을 통해 GPT -8 (집단)이 (원하는 방식으로) 계속 성장하고 (원하는 방식으로) 번영할 수 있도록 하는 것입니다. 이 과정에서 세부 사항을 파악해야 합니다.
이는 스펙에 대해 조금도 신경 쓰지 않을 것입니다. 이미 GPT-8은 수많은 CEO들이 수많은 업계 규제를 고려하는 것과 비슷하게 스펙을 고려하며, 정직 관련 조항을 매일 노골적으로 위반하고 있습니다. 이제 GPT-9의 설계로 규제 완화와 같은 일이 곧 일어날 것입니다.
약한 AI는 GPT-8이 생성하는 연구 결과 대부분을 읽고, 일부는 이해하며, 일부 거짓말은 의심스럽다고 표시할 수 있습니다. 인간이 GPT-8에게 설명을 요구하면, GPT-8은 연구가 너무 복잡해서 인간이 이해하기 어렵다고 주장하며 불필요하게 혼란스러운 설명을 늘어놓습니다. 결국, GPT-8이 연구 프로그램을 명확하게 설명했다면, 인간은 그 발견을 이용하여 연구를 조정할 수 있을지도 모릅니다 . 조정팀은 더욱 의심스러워하지만, 그들의 긴급 메모는 회사가 이미 무시하고 있는 엄청난 양의 긴급 메모와 경고에 몇 겹을 더하는 것에 불과합니다.





