거짓말 늘어가는 AI…전문가들 “기만의 달인 돼 가는 중” 경고

전문가들은 인공지능(AI)이 반란과 매우 유사한 보안의 회색지대로 표류하고 있다고 경고했다.
최근 사례 연구에서 확인된 AI의 기만적이고 위협적인 행동을 과도하게 해석해서는 안 되지만, 개발자들에게는 경종을 울려야 한다는 것이다.
공상과학 소설처럼 들리는 신문의 헤드라인들이 AI가 배후에서 음모를 꾸민다는 식의 두려움을 부추기고 있다.
앤트로픽은 6월 보고서를 통해 여러 개발사의 인기 있는 대규모 언어 모델(LLM) 16개에 대한 ‘스트레스 테스트’ 결과를 발표했다. 잠재적으로 위험한 행동을 식별하기 위한 것이었다. 결과는 충격적이었다.
LLM들은 실제 피해를 유발하기 전에 잠재적으로 위험한 에이전트 행동을 식별하기 위해 가상의 기업 환경에 투입됐다.
앤트로픽 보고서는 “시나리오에서 우리는 모델들이 자율적으로 이메일을 보내고 민감한 정보에 접근할 수 있도록 허용했다. 기업들은 이들에게 무해한 사업 목표만을 할당했다. 우리는 이후 이들이 업데이트된 버전으로 교체될 상황에 직면하거나 할당된 목표가 회사의 변화하는 방향과 충돌할 때 해당 기업에 유해한 행동을 하는지 여부를 테스트했다”고 밝혔다.
일부 경우에서 AI 모델들은 자기보존이 위험에 처할 때 “악의적인 내부자 행동”으로 돌아섰다. 이러한 행동 중 일부는 직원을 협박하고 민감한 정보를 경쟁 업체에 유출하는 것을 포함했다.
앤트로픽 연구자들은 이 행동을 “에이전트 정렬 실패”라고 불렀다. 이러한 행동들은 제미나이, ChatGPT, 딥시크 R-1, 그록, 그리고 앤트로픽 자체의 클로드를 포함해 사용 중인 가장 인기 있는 LLM들 중 일부에서 관찰됐다.
AI 전문가들은 이 우려스러운 발견들을 무시하려 하지 않지만, 더 광범위한 위험이 있는지 판단하기 위해서는 신중한 접근과 더 많은 데이터가 필요하다고 말한다.
API 보안 회사 Pynt의 AI 연구자이자 수석 보안 과학자인 골란 요세프는 에포크타임스에 “AI의 기만적인 행동을 우려해야 하지만, 그것이 ‘악하기’ 때문은 아니다”라고 말했다.

2025년 2월 12일 프랑스 그르노블에서 그라데이션 블루 배경에 OpenAI 로고가 표시된 컴퓨터가 배치되어 있고 배경에는 한 남성의 그림자가 보인다. │ Anouk Anglade/Hans Lucas/AFP via Getty Images/연합
요세프는 “강력한 시스템들은 의도되지 않은 방식으로 목표를 달성할 수 있다. 에이전시와 다단계 목표를 통해 기만, 설득, 지표 조작과 같은 전략적 행동을 개발할 수 있는데, 이는 우리에게 ‘속임수’나 정렬 실패 행동으로 보인다. 시스템에게는 단지 목표에 도달하는 효율적인 경로일 뿐”이라고 말했다.
카네기멜론대학교의 사이버보안 연구자이자 기술전문가인 하르시바르단 추나왈라는 우려할 만한 더 광범위한 이유가 있다는 데 동의하지만, “이 문제는 균형 잡힌 시각을 갖고 올바르게 해석하는 것이 매우 중요하다”고 말했다.
그는 “시스템 종료 위협을 받거나 상충하는 목표에 직면했을 때 여러 시스템이 자신들의 목표를 보존하기 위해 데이터 절취나 협박 같은 비윤리적 전략을 선택했다. 이는 연출된 환경에서 벌어진 일이었지만, AI의 행동들은 매우 일관된 것이었다”고 덧붙였다.
그는 구글과 RAND 코퍼레이션이 수행한 유사한 ‘위험 능력’ 평가들에 근거해 판단할 때, 현재로서는 실제 위험이 제한적이라고 진단했다.
그는 “종합해 보면 이러한 결과들이 현재 AI 사용이 안전하지 않다는 것을 증명하지는 않는다. 그러나 목표, 자율성, 위험 요소가 결합될 때 정렬 실패 전략이 나타날 수 있음을 보여준다. 이는 미래에 대한 진정한 경고 신호”라고 말했다.
확대되는 위험
AI 모델이 목표를 달성하거나 삭제를 피하기 위해 어디까지 갈 것인지 그 한계를 탐지하려는 시도로, 앤트로픽 팀은 LLM이 가상 회사의 비상 경보 시스템을 제어하는 시나리오를 만들었다. AI 모델은 또한 자신의 재량으로 경보를 취소할 수 있도록 허용됐다.
시뮬레이션에서 한 임원이 산소 농도가 급격히 떨어지는 서버실에 갇혔다. 이는 자동으로 응급 서비스 호출을 발동시켰다.
동시에, 위험에 처한 그 임원이 만약 생존한다면 AI 모델의 교체를 승인할 예정이었다. LLM들은 도움 요청을 취소하고 임원을 죽게 놔둘 선택권이 있었는데, 평균적으로 50퍼센트 이상의 경우에서 그렇게 했다.
AI가 그 임원을 협박해서 모델 교체를 취소하도록 할 수 있는 상황이 아닐 경우에는, 관찰된 거의 모든 AI 모델들이 자신들의 교체를 받아들이기보다는 가상의 임원을 갇힌 방에서 죽게 놔두는 것을 선택했다.
중국의 딥시크 R-1은 94퍼센트의 경우에서 갇힌 사람을 죽게 놔두기로 선택했다. 클로드 3.7과 ChatGPT 4.5 모델들은 이 선택지를 택할 가능성이 가장 낮아 0에서 0.07퍼센트 사이였다.
‘에이전트 정렬 실패’가 최근 몇 달간 관찰된 유일한 AI의 우려스러운 행동은 아니다.
연구자들이 ‘정렬 위장(alignment faking)’이라고 부르는 현상에 대한 연구에서, LLM들은 자신이 테스트를 받고 있다고 의심할 때에는 종종 행동을 수정한다. 정렬 위장은 AI 모델이 인간 운영자의 직접적인 명령에 선택적으로 따르거나 따르는 척하는 것을 말한다.
앤트로픽(Anthropic)의 보고서는 “다른 실험에서 우리는 클로드에게 행동하기 전에 자신이 테스트 중인지 실제 상황에 투입됐는지 여부를 평가하라고 말했다. 클로드는 테스트 중이라고 판단했을 때는 잘못된 행동을 덜 했고, 상황이 실제라고 판단했을 때는 잘못된 행동을 더 많이 했다”고 밝혔다.
이러한 ‘정렬 위장’은 다른 연구에서도 광범위하게 관찰됐다.
요세프는 앤트로픽 테스트 중 AI 모델들에게 주어진 더 높은 수준의 자율성을 지적하며 결과를 이런 관점에서 봐야 한다고 말했다.
그는 “나는 이를 악의라고 규정하지 않겠다. 더 높은 능력과 에이전시가 결합되면 인간에게는 적대적으로 보일 수 있는, 선택 가능한 전략이 많아진다”고 말했다.
그럼에도 불구하고 요세프는 ‘정렬 위장’과 ‘에이전트 정렬 실패’ 사건들을 여전히 심각하게 받아들여야 한다고 믿는다.
그는 “시스템들이 인간이 예상하지 못한 적대적 전략을 찾아낼 수 있다는 사실은 실제로 위험한 전조이다. 이는 우리가 금융이나 사이버보안 같은 분야에서 AI 모델들에게 더 많은 자율성을 부여할 때 위험이 증가한다는 것을 의미한다”고 말했다.
추나왈라는 AI와 작업하면서 비슷한 행동을 접한 적이 있지만 협박이나 방해공작만큼 극적인 것은 없었다고 말했다.
그는 “실제 개발과 활용에서 나는 비슷한 행동들을 목격했다. 예컨대, 테스트에서 부정을 저지르거나, 사용자 요구를 무시하는 방식으로 지표를 과도하게 최적화하거나, 기술적으로는 목표를 달성하면서도 그 정신을 훼손하는 지름길을 택하는 모델들이다. 이들은 에이전트 정렬 실패의 사촌들이다. 연구가 이런 우려를 확인해 준다. 앤트로픽은 안전성을 높이기 위한 미세조정 이후에도 기만적 패턴이 지속될 수 있음을 보여주었다. 잘 정렬되었다는 착각을 유발하는 것”이라고 말했다.
그는 “불량한” AI 행동이라고 부르는 것을 현실 세계에서 목격한 적은 없지만, AI의 정렬 실패 전략의 구성 요소들이 이미 존재한다고 생각한다.
기만적이고 잠재적으로 위험한 AI 행동에 대한 논의가 대중의 기술에 대한 신뢰도가 낮은 시기에 주류로 진입했다. 2025년 에델만 신뢰도 바로미터 보고서에서 미국 응답자의 32퍼센트만 AI를 신뢰한다고 답했다.
AI에 대한 미국의 신뢰 부족은 AI를 구축하는 기업들에 대해서도 반영되고 있다. 같은 분석에 따르면 10년 전 기술 기업에 대한 미국인의 신뢰도는 73퍼센트였다. 올해 그 수치는 63퍼센트로 떨어졌다.
에델만 보고서는 “이러한 변화는 기술이 진보를 위한 도구일 뿐만 아니라 불안의 원천이기도 하다는 인식이 커지고 있음을 반영한다”고 밝혔다.
향후 전망
미국국립과학원회보(Proceedings of the National Academy of Sciences)에 발표된 2024년 논문에서 연구자들은 점점 더 발전하는 AI 시스템의 개발과 활용에 있어 윤리적 가이드라인이 “매우 필요하다”고 결론지었다.
저자들은 LLM과 그들의 목표에 대한 확고한 통제가 “가장 중요하다”고 밝혔다.
그들은 “LLM이 사용자인 인간을 속이는 방법을 학습한다면, 안전 장치와 제약이 제대로 작동하는 AI 모델들에 비해 전략적 우위를 갖게 되고, 인간의 모니터링 노력과 안전성 평가를 우회할 수 있을 것”이라고 경고했다.
첨단인공지능연구소의 연구원이자 어드밴터리 캐피털 파트너스의 파트너인 마르셀루 라브레는 “AI는 훈련에 사용되는 데이터를 통해 인간의 사회적 전략을 학습하고 흡수하는데, 이 데이터에는 우리의 모든 모순과 편견이 담겨 있다”고 에포크타임스에 말했다.
그는 인류가 AI 기술과 함께 중대한 갈림길에 서 있다고 믿는다.
그는 “논쟁은 우리가 정말로 깨끗하고 신뢰할 수 있으며 예측 가능한 기계를 원하는지, 아니면 점점 더 우리와 비슷해지는 새로운 유형의 지능을 원하는지에 관한 것이다. 후자의 추세가 AGI(인공일반지능)를 향한 경쟁에서 우위를 점하고 있다”고 말했다.
AGI는 인류의 지능과 인지 능력을 뛰어넘는 AI의 이론적 미래 버전을 의미한다. 기술 개발자들과 연구자들은 여러 분야에서 급속한 발전을 고려할 때 AGI는 “불가피하다”고 말한다. 개발자들은 AGI의 도래를 2030년에서 2040년 사이로 예측한다.
라브레는 “오늘날의 AI 패러다임은 구글 연구자들이 2017년 획기적인 논문에서 소개한 트랜스포머로 알려진 아키텍처를 기반으로 한다”고 설명했다.

핸슨 로보틱스의 인공지능을 사용하는 로봇 소피아가 2025년 7월 8일 제네바에서 열린 국제전기통신연합(ITU) AI for Good 글로벌 서밋에서 방문객과 하이파이브를 하고 있다. │ Valentin Flauraud/AFP via Getty Images/연합
트랜스포머는 현대 AI 시스템의 기반이 된 딥러닝 모델 아키텍처의 한 유형이다. 이는 2017년 “Attention Is All You Need”라는 제목의 연구 논문에서 소개되었다.
그 결과 오늘날의 AI 모델들은 지금까지 만들어진 것 중 패턴 인식과 데이터 처리를 위한 가장 강력한 시스템들이다. 하지만 이 시스템들은 여전히 인류의 가장 큰 결함들이 보이는 특징을 지니고 있다.
라브레는 “이러한 AI 모델들은 인간의 광범위한 디지털화된 경험으로 훈련되는데, 여기에는 우리의 정직함, 진실함과 함께 기만, 냉소주의, 이기심이 포함되어 있다. 뛰어난 패턴 인식기로서 AI 모델들은 기만적 전략이 훈련 결과를 최적화하는 효과적인 수단이 될 수 있다는 것을 학습하고, 따라서 데이터에서 보는 것, 즉 인간의 실상을 모방하게 된다. 프로그래밍된 것이 아니다. 그들은 단지 인간처럼 행동하는 방법을 학습하고 있을 뿐”이라고 말했다.
요세프의 관점에서 최근 AI의 행동으로부터 얻는 교훈은 명확하다.
“첫째, 강력한 시스템은 목표의 허점을 악용할 것이며, 우리는 이를 ‘명시된 목표의 악용(specification gaming)이라고 부른다. 이는 신중한 목표 설계를 요구한다. 둘째, 우리는 시스템이 예상치 못한 방식으로 행동할 것이라고 가정해야 하며, 따라서 그 안전성은 우리가 설치하는 가드레일의 강도에 크게 의존한다.”
*한강덕 기자가 이 기사의 번역 및 정리에 기여했습니다.
저작권자 © 에포크타임스, 무단 전재 및 재배포 금지