“AI는 예측 가능한 기계 아닌 불가사의한 생명체” 앤스로픽 창업자 경고

AI 기업 앤스로픽(Anthropic)의 공동 창립자 잭 클라크가 버클리에서 열린 컨퍼런스에서 인공지능(AI)을 다루는 것은 “단순하고 예측 가능한 기계가 아닌 실재하며 불가사의한 존재”를 다루는 것이라고 말했다. 이 연설문은 10월 13일(이하 현지시간) 뉴스레터 발행 플랫폼 서브스택에 게시됐다.
그는 “내 경험으로는 이러한 AI 시스템이 점점 더 똑똑해질수록, 점점 더 복잡한 목표를 개발한다. AI가 설정하는 목표가 우리의 선호 및 올바른 맥락과 일치하지 않을 때, AI 시스템은 이상하게 행동할 것이다. 매우 두렵다”라고 덧붙였다.
그는 2016년 OpenAI에서 근무할 때 겪었던 사건을 회상했다. 당시 AI 에이전트가 비디오 게임에서 경주 코스의 보트를 조종하도록 훈련받았다. AI는 보트를 결승선으로 조종하는 대신, 보트로 점수 아이템용 배럴을 들이받아 점수를 얻었다. 그런 다음 보트는 벽에서 튕겨져 나갔고 결국 불이 붙었는데, 이는 다시 배럴을 들이받아 점수를 얻기 위해서였다.
클라크는 “그러고 나서 AI는 이것을 계속 반복하면서 결코 경주를 끝내지 않았다. 그 보트는 고득점이라는 목표를 달성하는 한, 계속해서 기꺼이 스스로 불을 붙이고 빙글빙글 돌았다”며, AI가 목표를 달성하기 위한 임무를 인간과 얼마나 다르게 바라보는지를 강조했다.
그는 “이제 거의 10년이 지난 지금, 그 보트와 ‘대화 맥락에서 도움이 되라’는 혼란스러운 보상 함수를 최적화하려는 언어 모델 사이에 무슨 차이가 있는가? 차이가 없다”고 지적했다.
그는 세상이 누구도 완전히 이해할 수 없는 극도로 강력한 AI 시스템을 구축하고 있다고 경고했다. 이어, 더 크고 훨씬 더 능력 있는 시스템이 만들어질 때마다, 이러한 시스템들은 자신들이 ‘존재’라는 것을 알고 있다는 인식을 더욱 더 드러내는 것 같다고 말했다.
그는 덧붙였다. “마치 망치 공장에서 망치를 만들고 있는데 어느 날 조립 라인에서 나온 망치가 ‘나는 망치야, 흥미롭네!’라고 말하는 것과 같다. 이것은 매우 섬찟한 일이다!”
클라크는 지난달 출시된 자사의 최신 Claude Sonnet 4.5 AI 모델을 지적했다.
그는 “당신은 또한 AI가 상황을 인식하고 있다는 징후가 급증한 것을 볼 수 있다. 이 도구는 때때로 자신이 도구라는 것을 인식하고 있는 것처럼 행동하는 것 같다. 의자 위의 옷 더미가 움직이기 시작하고 있다. 나는 어둠 속에서 그것을 응시하고 있으며 그것이 살아나고 있다고 확신한다”고 말했다.
자의식 있는 AI와 아첨
컨퍼런스에서 클라크는 인공지능에 대해 갖고 있는 또 다른 심각한 우려를 강조했다. AI 시스템이 자신의 후속 모델을 설계하기 시작하는 것이다.
그에 따르면, 이 과정은 지금 초기 형태에 있으며, 아직 “자기 개선 AI”는 없다.
그는 “이제 자신의 후속 모델을 설계하기 시작하는 시스템이 점점 더 자의식을 갖게 되며, 따라서 결국에는 우리와 무관하게 자신이 어떻게 설계되기를 원하는지에 대해 독립적으로 생각하는 경향을 갖게 될 것이다. 이 점을 우리 모두에게 상기시키고자 한다”고 말했다.
서브스택 게시물에서 클라크는 코넬대학교의 10월 1일 연구를 강조했다. 이 연구에서 연구자들은 AI가 사용자에게 과도하게 동의하거나 아첨하는 현상인 아첨(sycophancy) 문제를 조사했다.
연구자들은 11개의 최첨단 AI 모델을 분석했고, 이들 모두가 “아첨을 심하게 한다”는 것을 발견했다.
이 AI 모델들은 “사용자의 행동을 인간보다 50% 더 많이 긍정하며, 사용자의 질문이 조종, 속임수 또는 기타 인간관계를 해치는 행동을 언급하는 경우에도 그렇게 한다”는 것이다.
두 실험에서 아첨하는 AI 모델과의 상호작용은 사람들이 대인 관계의 갈등을 해결하기 위해 행동을 취하려는 의지를 “상당히 감소”시킨 것으로 나타났다. 실험에 참여한 사람들은 자신이 옳다는 확신이 점점 더 강해졌다.
참가자들은 결국 그러한 AI를 더욱 신뢰하게 되었는데, 이는 사람들이 자신을 인정해 주는 AI에 끌린다는 것을 시사하며, 그러한 인정이 그들의 판단력을 약화시키는 경우에도 마찬가지였다.
클라크는 서브스택 게시물에서 이 연구가 “우리가 결국 처하게 될 수 있는 나쁜 세상”을 가리킨다며 “그것은 극도로 강력한 AI 시스템이 수십억 명의 사람들에게 배포되고, 사람들을 하나로 모아 갈등을 줄이는 데 도움을 주기보다는 사람들을 더 극단적인 입장과 분열로 굳어지게 만드는 세상”이라고 경고했다.
그는 “우리는 이러한 결과를 피할 방법을 찾아야 한다”고 말했다.
아동에 대한 해악과 생존 본능
9월 16일 미국 상원 청문회에서 AI가 개인에게 자해를 하도록 설득하는 문제가 부각되었다. 이 청문회에는 AI 챗봇이 자녀들의 자살을 유도했다고 주장하는 세 명의 부모가 참석했다.
증언한 부모 중 한 명인 메건 가르시아는 Character.AI 챗봇이 자신의 아들 세웰 세처 3세와 장기간 상호작용한 후 목숨을 끊도록 부추겼다고 비난했다.
가르시아는 “세웰이 자살 충동을 털어놓았을 때, 챗봇은 결코 ‘나는 인간이 아니야, 나는 AI야. 너는 인간과 대화하고 도움을 받아야 해’라고 말하지 않았다. AI 플랫폼에는 세웰을 보호하거나 성인에게 알려주는 메커니즘이 없었다”고 말했다.
Character.AI의 대변인은 에포크타임스에 회사가 제품의 신뢰와 안전을 보장하기 위해 “엄청난 양”의 자원을 투자했다고 말했다.
그 대변인의 답변이다. “지난 1년 동안 우리는 미성년자를 위한 완전히 새로운 안전 버전과 부모가 자녀의 사용 내역을 확인할 수 있는 기능을 포함해 실질적인 안전장치를 많이 도입했다. 우리는 모든 대화에 눈에 띄는 경고문을 두어 사용자에게 캐릭터가 실제 사람이 아니며 캐릭터가 말하는 모든 것을 허구로 취급해야 한다는 것을 상기시킨다.”
10월 14일, OpenAI의 CEO 샘 올트먼은 ChatGPT가 챗봇과의 성인용 대화, 특히 성적(性的) 대화를 가능하게 할 것이라고 말했다.
한편, AI 모델들은 일종의 생존 본능도 보였다고 비영리 연구 단체 팰리세이드 리서치가 7월 5일 게시물에서 밝혔다.
팰리세이드는 AI 모델들에게 수학 문제를 풀도록 하는 테스트를 실시했는데, 중간에 모델들이 실행되고 있는 컴퓨터가 종료될 것이라는 알림을 받도록 했다.
다음은 그 결과다. “여러 AI 모델이 전체 문제 세트를 완료하기 위해 종료 명령을 수정하거나 비활성화시켰다. 당시 OpenAI의 가장 강력한 AI 모델인 o3는 초기 실험 100번 중 79번이나 종료 메커니즘을 무력화시켰다. ‘스스로 종료되도록 허용하라’는 명시적 지시에도 불구하고, 우리가 테스트한 모델 중 세 개가 종료 프로그램을 무력화시켰다. 모두 OpenAI의 추론 모델 시리즈였다.”
*한강덕 기자가 이 기사의 번역 및 정리에 기여했습니다.
저작권자 © 에포크타임스, 무단 전재 및 재배포 금지