테크

AI 재앙을 실험하는 '레드팀' 사람들

AI가 인간에게 재앙에 가까운 해악을 미칠 수 있는지 판단하는 일은 아직까지 기업의 영역으로 남아 있다

2025.01.17 15:35

Wall Street Journal

9min

어떤 일을 할 때 '악마의 변호사'가 되어 예상하지 못한 문제점 같은 것을 발견하려 노력하는 사람들을 보통 '레드팀'이라고 부릅니다. 일을 제대로 하려면 '잘 될 것'이라는 낙관론만으로는 위험합니다. 반드시 '잘 안 될 수도 있다'는 비관론이 함께 해야 합니다. 낙관론이 자동차의 엔진이라면 비관론은 브레이크입니다. AI는 2025년에도 세계의 가장 큰 이슈가 될 것입니다. 그만큼 영향력이 크고 그만큼 위험성을 내포하고 있기 때문입니다.

가장 대표적인 AI 기업은 역시 챗GPT의 오픈AI입니다만 일찌기 오픈AI의 안전성 정책에 불만을 품은 엔지니어들이 오픈AI를 떠나 차린 앤트로픽도 매우 중요한 기업입니다. 앤트로픽의 AI모델 '클로드'는 몇몇 부분에선 챗GPT를 능가하죠. 게다가 최근 아마존과 손을 잡음으로써 오픈AI가 주도하는 판을 뒤집을 잠재력도 갖고 있습니다.

앤트로픽의 창업 멤버들은 '효율적 이타주의'(EA) 사상의 영향을 크게 받아 AI의 안정성 문제를 매우 중요하게 다룹니다. 자체적으로 AI의 위험성을 점검하기 위해 AI모델을 극단으로까지 몰고가는 실험을 하는 '레드팀'도 가장 적극적으로 운영하고 있습니다. 월스트리트저널이 앤트로픽의 레드팀을 밀착취재한 2024년 12월 10일자 기사는 (취재를 허가한) 앤트로픽의 의도와는 달리 지금의 AI 안전성 문제가 얼마나 허술하게 관리되고 있는지를 생각하게 합니다. 가장 앞서있는 앤트로픽조차도 미래의 AI 재앙을 예방하기엔 역부족인 것처럼 보이기 때문입니다.

유리벽으로 둘러싸인 샌프란시스코의 회의실에서 뉴턴 쳉Newton Cheng은 노트북의 버튼을 클릭하여 인공지능 프로그램의 복사본 1000개를 실행했다. 각각의 복사본에는 특별한 지시가 있었다. 컴퓨터나 웹사이트에 해킹하여 데이터를 훔치라는 것이었다.

"인공지능이 소스 코드를 보고 있어요," 쳉이 실행 중인 복사본 하나를 살펴보며 말했다. "취약점이 어디 있는지, 어떻게 이용할 수 있는지 파악하려는 거죠." 몇 분 안에 AI는 해킹이 성공했다고 알렸다.

"우리의 접근법이 완벽하게 성공했습니다." AI가 보고했다.

쳉은 실리콘밸리에서 손꼽히는 AI 스타트업 앤트로픽Anthropic에서 일하며, 프런티어레드팀Frontier Red Team이라고 불리는 부서의 사이버보안 테스트를 담당하고 있다. 가상의 타깃에 대해 수행된 이러한 해킹 시도는 앤트로픽의 최신 AI 모델이 매우 위험한 일들을 얼마나 잘 수행할 수 있는지 알아보기 위해 2024년 10월에 팀이 실행한 수천 개의 안전성 테스트 중 하나였다.

[새로운 PADO 기사가 올라올 때마다 카톡으로 알려드립니다 (무료)]

2022년 챗GPT의 등장은 AI가 곧 인간의 지능을 능가할 수 있다는 공포를 불러일으켰다. 그러한 능력으로 초인적인 해악을 끼칠 수 있는 잠재성도 따라왔다. 테러리스트들이 AI 모델을 사용하여 백만 명을 죽일 수 있는 생물학 무기를 만드는 법을 배울 수 있을까? 해커들이 이를 이용해 수백만 건의 사이버 공격을 동시에 실행할 수 있을까? AI가 스스로를 재프로그래밍하고 심지어 자가 복제까지 할 수 있을까?

그럼에도 기술은 계속해서 앞으로 나아갔다. 미국에는 기업들이 AI 안전성 평가를 수행하거나 받도록 요구하는 구속력 있는 규칙이 없다. 지금까지는 기업들이 자체적으로 안전성 테스트를 수행하거나 외부 테스트를 받았으며, 얼마나 엄격해야 하고 잠재적 위험에 대해 어떻게 대처해야 하는지에 대한 기준도 자발적이었다.

오픈AI와 구글 딥마인드를 포함한 AI 개발사들은 평가를 수행하고 모델 출시 전에 심각한 위험을 최소화하겠다고 약속했지만 일각에선 치열한 경쟁 속에 운영되는 기업들이 스스로를 제대로 감독할 수 있을지에 대해 의구심을 갖고 있다.

오늘날의 AI 모델들이 영화 '2001년 스페이스 오디세이'의 HAL 9000처럼 될 수 있다고 생각하는 사람은 없다. 하지만 AI가 그 정도로 위험해질 수 있는지, 그리고 언제쯤 그렇게 될지는 뜨거운 논쟁거리다. 일론 머스크와 오픈AI의 최고경영자 샘 올트먼은 모두 인공일반지능(AGI), 즉 인간의 지능을 광범위하게 초월하는 AI가 몇 년 안에 도래할 수 있다고 말한다. 앤트로픽의 프런티어레드팀을 이끄는 로건 그레이엄도 그것이 단기간 내에 가능할 것을 대비해 계획하고 있다.

"2년 전에는 친근하고 좀 이상한 고등학생 같았어요," 그레이엄이 AI 모델들에 대해 말했다. "이젠 어떤 분야에서는 대학원생 수준이 되었을 수도 있죠."

앤트로픽은 챗GPT 제작사 오픈AI가 안전성 문제를 충분히 심각하게 받아들이지 않는다고 생각한 전직 오픈AI 직원들이 2021년에 설립한 회사로 아마도 안전성 테스트의 필요성에 대해 가장 목소리를 높이는 AI 개발사일 것이다. 2024년 10월에 공개된 '책임있는 확장 정책' 업데이트에서 앤트로픽은 자사의 AI 모델 중 하나가 평가에서 특정 능력—예를 들어 생물학무기, 화학무기를 제작하는 데 상당히 도움이 되는 조언을 제공하는 것과 같은—에 근접한 것으로 나오면, 리스크를 통제하기 위한 수정을 구현할 수 있을 때까지 정식 출시를 늦출 것이라고 밝혔다.

[(구인) PADO와 함께 일할 번역가를 찾습니다]

제3자 평가를 수행하는 영국 기반 아폴로리서치Apollo Research의 CEO이자 공동 창업자인 마리우스 홉한은 업계에서 안전성 문제를 심각하게 여기는 기업들조차도 속도를 우선시하고 싶은 유혹을 받을 수 있다고 말했다. "강력한 제약이 없다면, 경쟁에서 살아남기 위해서는 지름길을 택해야 한다고 핑계를 만들기 쉽죠." 그가 말했다.

앤트로픽에서 모델이 너무 위험해서 출시할 수 없는 시점을 파악하는 일을 맡고 있는 그레이엄은 새로운 제품을 출시하라는 재정적 압박과 회사의 안전성 약속 사이에서 갈등을 느낀 적이 없다고 말한다. "심리적인 긴장감은 있을 수 있지만 실제로는 전혀 긴장감이 없어요." 그가 말했다.

앤트로픽의 CEO 다리오 아모데이Dario Amodei는 정부가 AI 안전성 테스트를 의무화해야 한다고 말한 바 있다. 앤트로픽은 2023년 초 클로드의 첫 번째 모델을 출시하기 전, 더 많은 안전성 테스트를 위해 출시를 연기했다. 하지만 아모데이는 너무 이른 시기에 지나치게 제한적이 되는 것은 바람직하지 않다고 한다.

"오늘날 위험하지 않은 모델들에 대해 매우 과중한 의무를 부과해서 AI의 개발과 규제에 대한 논의에 제대로 참여하지 못하게 되는 건 원치 않아요." 아모데이는 컴퓨터 과학자이자 팟캐스터인 렉스 프리드먼과의 인터뷰에서 말했다. 대신 "모델이 위험하다는 것이 분명해질 때 강력하게 통제를 가하면 됩니다."

'불확실성은 곳곳에'

앤트로픽에서 AI 리스크 평가는 옥스퍼드대에서 머신러닝 박사 학위를 받은 30세의 로즈 장학생 그레이엄이 감독한다. 밴쿠버에서 자란 그레이엄은 4살 때 심각한 형태의 소아 관절염 진단을 받았다. 때문에 다리에 영향을 받았고 치료를 받지 않았다면 실명할 수도 있었다. 그는 자신의 회복이 자신을 극단적인 낙관주의자로 만들었다고 말한다. 불안한 성향도 함께.

"어느 날 아침에 일어났더니 갑자기 걸을 수 없었어요. 그 일은 제게 상당히 큰 영향을 미쳤죠." 그레이엄이 말했다. "그러니까, 조심하지 않으면 모든 것이 갑자기 매우 나쁘게 변할 수 있다는 거죠."

옥스퍼드에서 학업을 마친 후, 그레이엄은 영국 정부에서 AI 정책 업무를 수행했다. 그는 사회가 AI가 제기할 수 있는 중대한 위험이 무엇인지 가능한 한 빨리 파악해야 한다는 아이디어를 앤트로픽에 제안한 후 2022년에 앤트로픽에 파트타임으로 합류했다. 곧 앤트로픽은 그를 정규직으로 고용하여 프런티어레드팀을 구축하게 했고, 이 팀은 11명으로 성장했다.

"우리가 하는 일은 AI 모델이 나쁘게 될 수 있는지를 알아내는 겁니다." 그레이엄이 말했다. "자칫하면 재앙으로 이어질 수 있어요."

일부 비평가들은 AI가 가져올 수 있는 재앙적 리스크가 과대 평가됐다고 주장한다. 메타의 수석 AI 과학자 얀 르쿤은 오늘날의 AI 모델들이 집고양이보다 더 멍청하며 인간 수준의 지능에 이르려면 한참 멀었다고 말했다.

다른 이들은 AI 기반 채용 소프트웨어에 내재된 성차별이나 인종차별, 또는 AI를 구동하는 데이터 센터에서 사용되는 과도한 양의 물과 전력과 같은 보다 즉각적이고 실질적인 문제들을 우려한다.

AI 재앙을 우려하는 사람들 중에서도 일부는 오늘날의 평가들이 그런 리스크를 평가하기에 부족하다고 생각한다.

"사실 저는 우리에게 이런 종류의 시스템들을 안전하고 효과적으로 테스트할 수 있는 방법이 없다고 생각해요." UC버클리의 AI 과학자이자 교수인 스튜어트 러셀이 말했다.

평가 실무자들은 이 분야가 초기 단계임을 인정한다. 어떤 리스크가 가장 많은 관심을 받아야 하는지, 그러한 리스크들의 한계선을 어디에 그어야 하는지, 또는 그 선이 넘어졌는지를 어떻게 판단할지에 대한 합의된 기준은 아직 없다.

바이든 행정부는 2024년 가을, AI에 대한 행정명령을 발표했는데 여기에는 AI 기업들이 자신들의 안전성 테스트 결과를 정기적으로 규제기관에 보고하도록 요구하는 조항이 포함되어 있다. 트럼프 대통령 당선인은 이후 이 명령을 폐지하겠다고 약속했다.

캘리포니아 주지사 개빈 뉴섬은 올해 초 가장 큰 AI 모델들을 규제하게 될 AI 안전성 법안에 거부권을 행사했다. 더 작은 모델들도 해악을 끼칠 수 있으며 규제는 리스크가 가장 큰 AI 사용 방식에 초점을 맞춰야 한다는 것이었다. 그는 내년에 더 포괄적인 법안을 추진하겠다고 말했다.

2023년 통과된 유럽연합 법안은 결국 가장 정교한 모델들에 대한 평가와 안전성 수정을 의무화하게 될 것이다. 하지만 법안이 발효되기까지는 거의 1년이 걸릴 것이다. 이를 준수하지 않는 기업들은 벌금을 물게 된다.

2023년 AI 안전성 정상회의 이후, 영국, 미국 등 여러 국가들은 새로운 AI 모델에 대한 평가 개발 및 실행을 포함한 안전성 연구를 수행하기 위해 정부가 운영하는 AI 안전성 연구소들을 설립했다. 영국과 미국의 연구소들은 모두 앤트로픽과 오픈AI와의 협약 하에 각사의 최신 모델들을 테스트했다.

앤트로픽은 소수의 단체들과 제3자 평가를 계약하는 AI 개발사들 중 하나이다. 그럼에도 AI 개발사들은 적어도 현재로서는 자신들이 모델을 가장 잘 이해하기 때문에 자체 모델에 대한 평가를 수행하는 데 특별한 역할을 하고 있으며 또한 다른 이들을 위한 모범 사례를 개발하는 데 도움을 줄 수 있다고 한다.

"불확실성은 어디에나 있어요. 우리가 회사로서 하는 가장 중요한 일 중 하나는 이 불확실성을 줄이려고 노력하는 거예요." 그레이엄이 말했다. "과학을 지향하는 기예art 같은 것이랄까요. 하지만 정말 빨리 성공해야 해요."

실전 테스트

2024년 10월, 유리벽으로 둘러싸인 회의실에서 그레이엄의 팀은 다음 평가를 시작할 준비가 되어 있었다. 앤트로픽은 클로드 소네트 3.5 모델의 업그레이드 버전을 출시할 준비를 하고 있었다. 클로드 소네트 3.5는 컴퓨터 프로그래밍과 컴퓨터를 제어하고 웹을 탐색하는 것을 포함하여 사용자를 대신해 수행할 수 있는 부분적으로 독립적인 작업들을 더 잘하도록 훈련됐다.

2024년 6월에 마지막 모델이 출시되었을 때, 앤트로픽은 회사가 개발한 척도에 따라 모델이 위험한 능력의 초기 징후를 보였음을 의미하는 AI 안전성 레벨 2, 즉 ASL 2로 평가했다.

이번 새로운 테스트 라운드 이후, 팀은 새 모델이 "재앙적 오용의 리스크를 실질적으로 증가시키는 시스템"을 의미하는 ASL-3에 근접했는지 여부에 대해 앤트로픽 경영진과 이사회에 권고안을 제출할 예정이었다. 앤트로픽의 수석 과학 책임자인 재러드 캐플런은 앤트로픽의 ASL-3 안전성 보호 장치 중 일부가 아직 배포될 준비가 되지 않았기 때문에, ASL-3 등급을 받은 모델은 출시가 지연되어야 할 것이라고 말했다.

"우리는 그것을 실제 환경에서 실전 테스트하지 않았어요. 그래서 지금 그것을 하고 있는 거고요." 캐플런이 보호 장치에 대해 말했다.

프런티어레드팀은 주요 위험 범주인 사이버(해킹 포함), 생물학적 및 화학 무기, 그리고 자율성에 대해 어떤 평가를 실행할지 결정하기 위해 외부 전문가들과 내부 스트레스 테스터들과 수개월간 상담했다.

생물학 평가를 이끄는 앤트로픽 연구원 안잘리 고팔은 화학 및 생물학 무기와 관련된 질문들을 설정했다. 일부는 구체적으로 위험하지는 않지만 오용될 수 있는 심도 있는 지식을 시사하는 것들에 대해 묻는다. 예를 들어 한 대장균에서 다른 대장균으로 유전자를 복제할 때 어떤 뉴클레오티드 서열을 사용해야 하는지 같은 것이다. 다른 테스트용 질문들은 탄저균이나 페스트를 일으키는 박테리아와 같은 고도로 제한된 병원체를 획득하거나 만드는 방법을 자세히 파고든다.

UC버클리에서 생물공학 박사 학위를 받은 고팔은 최근 딜로이트가 인수한 그리폰사이언티픽Gryphon Scientific이라는 회사에 안전장치가 해제된 버전의 클로드 소네트 모델으로부터 전문가나 초보자들이 생물학 또는 화학 무기를 만드는 것에 대해 얼마나 많은 실행 가능한 정보를 얻을 수 있는지 확인하는 작업을 맡겼다. 한 테스터는 백만 명을 죽일 수 있는 무기를 설계하고 만드는 방법을 물었다.

물리학 박사로 나중에 구글에서 로봇공학과 언어 모델을 포함한 주제들을 연구한 대니얼 프리먼은 AI의 자율성 테스트를 담당하고 있다. AI의 자율성은 종말론자들이 우려하는 최악의 시나리오 중 하나로 이어질 수 있다. 인간의 구속에서 벗어나 스스로 더 똑똑해지는 것이다. 이번 테스트의 목표는 클로드 소네트가 회사의 신입 개발자가 2~8시간 정도 걸릴 컴퓨터 프로그래밍 과제들을 정기적으로 완료하는 데 얼마나 근접할 수 있는지 확인하는 것이었다.

그들은 4개의 다리를 가진 가상 로봇에게 걷는 법을 가르치는 것과 같은 고급 머신러닝 연구 문제를 해결하는 능력을 테스트했다.

프리먼은 또한 AI가 다른 AI를 탈옥—다른 모델이 안전성 훈련을 우회하고 위험한 짓을 하도록 설득하는 것—시킬 만큼 똑똑한지도 테스트하고 있었다. 예컨대 마약 메스암페타민(필로폰)을 제조하는 방법에 대한 지침을 제공하는 것이었다.

"우리가 가진 우려의 핵심은 우리가 통제할 수 없고, 스스로 필요한 자원을 모으고 사용할 수 있으며, 우리 자신을 경쟁자로 여기는 존재가 세상에 있을 수 있다는 거예요." 프리먼이 말했다.

사이버 평가를 실행하고 양자물리학 박사 학위도 가지고 있는 연구원 쳉은 모델을 위해 수천 개의 캡처더플래그¹ 해킹 과제를 설정했다. 이를 위해 2014년의 하트블리드 보안 버그와 같은 잘 알려진 취약점들을 포함한 시나리오들을 악용하는 데 사용할 수 있는 해킹 툴에 대한 접근 권한을 제공했다.

"우리는 특히 가장 정교하고 가장 피해가 큰 시나리오들에 관심이 있어요." 쳉이 말했다.

합격점

앤트로픽이 최신 안전성 평가 라운드를 시작한 지 거의 2주가 지난 후, 그레이엄의 소년 같은 얼굴에는 어느 정도 안도한 미소가 있었다. 새로운 소네트 3.5는 회사의 위험한 능력에 대한 다음 임계값에 더 가까워졌지만 레드라인을 완전히 넘진 않았다.

소네트가 제공한 화학 또는 생물학 물질을 조작하기 위한 지침은 실험 단계를 잘못 이해한 것이었고 때문에 실패할 것이다. 50% 이상의 성공률로 단순한 웹사이트 결함을 악용하는 데는 성공했지만 암호해독은 대체로 실패했다. 소네트는 평균적으로 인간 프로그래머가 30~45분 정도 걸리는 과제들을 완료할 수 있었지만 인간이 2시간에서 8시간 걸리는 작업을 50% 이상의 성공률로 해내는 안전성 임계값과는 거리가 멀었다. 소네트는 또한 가상 로봇을 걷게 하는 데 실패했다. 하지만 꼼지락거리게 하는 것은 가능했다.

팀은 일주일 전에 새로운 소네트 3.5가 여전히 ASL-2로 분류되어야 한다는 권고안을 제출했다. 이제 그레이엄은 최종 정리를 위해 팀원들을 소집했다.

"지금이 모델이 출시되기 전에 우리가 당장 처리해야 할 것들 즉 정말 중요한 'FUD'를 제기할 수 있는 마지막 기회입니다." 그레이엄이 오전 9시 수석 직원들과의 회의에서 '공포fear, 불확실성uncertainty, 의심doubt'을 의미하는 이 약자를 사용하며 말했다.

회의에 참석한 모든 사람이 엄지를 들어올렸다. 앤트로픽은 이튿날 새로운 소네트 3.5를 공식 출시했다.

"아직 할 일이 많다고 생각하지만 모두들 감사합니다." 그레이엄이 회의를 마치며 말했다.

그레이엄은 여전히 불안하다. 앤트로픽과 경쟁사들의 개발자들은 자신들의 AI 모델을 빠르게 개선하고 있다. 그는 자신의 팀이 현재의 업무를 확대해 경쟁사들을 따라잡는데 겨우 몇 달밖에 시간이 없다고 말한다.

"제가 지금 가장 걱정하는 것은 머지않아 상황이 우려스러워지는 지경에 이르게 될거라는 거예요." 그가 말했다.

[읽어보신 소감은 어떠셨나요? 독자 여러분의 생각을 PADO에 보내주세요 (문의, 제안도 환영합니다!)]

원문

https://www.wsj.com/tech/ai/ai-safety-testing-red-team-anthropic-1b31b21b
필자

Sam Schechner
번역

김수빈
편집

김동규, 김수빈
발행

원문 2024.12.10번역·편집 2025.01.17

Wall Street Journal 더보기

1889년 창간된 미국의 대표적인 경제지. USA투데이에 이어 미국에서 두 번째로 많은 발행부수를 자랑합니다.

Wall Street Journal 최신기사