초거대 AI의 위대한 전쟁
- yssskim1
- 2022년 12월 19일
- 11분 분량

ChatGPT
OpenAI의 GPT3.5급의 초거대 AI인 ChatGPT가 2022년 11월 대중에게 공개되었다. 많은 유튜버와 AI 과학자, 학생들이 관심을 가지고 언급을 하고 있으며, 저와 같이 직접 사이트에 방문하여 직접 Try해 보는 사람도 많다. 내년에는 100조 파라미터의 GPT-4가 나온다고도 한다. 정말 AGI 수준에 점점 다가가는 느낌이다. AI를 연구하는 사람으로서 두렵다기 보다는 흥미진진하다. 앞으로 어떤 세상이 펼쳐질 것인지, 또 어떤 스타트업이 이를 응용하여 새로운 사업을 시작하고 인류에게 꿈을 선사할 지 몹시 궁급해 진다. 마이크로소프트 검색과 ChatGPT를 합쳐 나가는 것도 좋고, LaMDA에 구글 검색이 연동되어도 좋다. 머스크의 테슬라봇의 두뇌로 GPT-4가 사용되는 것도 호기심에 자극을 주기에 충분하다. 사람들의 전문적 지식과 빅데이터를 결합하려는 LG의 시도도 신선하다. 하지만 무엇보다도 사람의 눈과 뉴런의 신비를 그려내는 뇌지도의 빅데이터를 활용하는 뉴럴링크의 위력에는 비할바가 못된다.
뇌를 모방하는 초거대 AI
초거대 AI는 인간의 뇌 구조를 모방한 AI를 뜻한다. 대용량 연산이 가능한 컴퓨팅 인프라를 기반으로 스스로 데이터를 학습하고 사고하며 판단한다. 한국에서는 LG와 네이버, 카카오, SKT, KT 등 빅테크 기업이 초거대 AI를 선보였거나 출시를 앞두고 있다. 현재 국내에 출시된 초거대 AI는 네이버 하이퍼클로바, LG 엑사원 등이 있다. 각각 언어모델과 멀티모달(Modality, 양식)을 대표하는 AI이다.
구글은 2020년 1월 1조6,000억 파라미터를 보유한 초거대 AI ‘스위치 트랜스포머’를 공개했다. MS와 엔비디아는 2020년 10월 5,300억 파라미터의 ‘메가트론’을, 12월에는 알파고를 개발했던 딥마인드가 2,800억 파라미터의 ‘고퍼’를 선보였다. 또 2020년 6월엔 중국 베이징 인공지능 연구원(BAAI)이 1조7,500억 파라미터의 ‘우다오 2.0’을 발표해 화제가 됐다. 파라미터는 초거대 AI의 성능을 보여주는 지표다. 인간의 뇌에서 신경세포 간 정보를 전달하는 시냅스와 비슷하다. 2020년 구글이 선보였던 대화형 AI ‘미나(MEENA)’는 26억 파라미터 수준이었다.
국내에선 LG(엑사원)와 네이버(하이퍼클로바), 카카오 (KoGPT·코지피티)가 나서고 있다. 엑사원의 파라미터는 3,000억 개다. 하이퍼클로바와 코지피티는 각각 2,040억 개, 300억 개다. 한국은 이 분야에서 후발주자이지만 파라미터와 응용 분야 등 모든 측면에서 빠르게 따라잡고 있다. LG AI연구원이 2021년 12월 공개한 초거대 AI ‘엑사원’은 사람의 언어를 이해해 이미지를 만들어주는가 하면 이미지를 인식해 텍스트로 설명을 해주는 멀티모달 AI이다. 네이버는 하이퍼클로바를 두뇌로 탑재한 ‘대화형 AI’ 기술을 선보였다. AI와 사람이 대화하듯 질문하며 원하는 정보를 검색하는 ‘지식인터랙티브’이다. (출처:https://www.aitimes.com/news/articleView.html?)
초거대 기업들의 초거대 AI 무기들
OpenAI, 문장생성 AI인 ‘GPT-3’의 개량판 ‘Instruct GPT’
문장생성 인공지능(AI) ‘GPT-3’은 온라인 게시판에서 상대가 누구인지 눈치채지 못한 상태로 며칠이고 이야기를 나눌 정도로 위화감이 적은 문장을 만들어 내는 능력을 갖추고 있는 것으로 알려져 있다. 이런 능력으로 마이크로소프트의 플랫폼에 채용되기도 하며 큰 주목을 받고 있다. 하지만 다른 한편으로는, GPT-3에는 반(反)이슬람의 편견이 들어있다는 지적이 나오는 등 생성하는 문장에 편향성 문제가 존재하는 것도 사실이다. 이런 GPT-3의 학습모델을 개량해 편향성을 억제하면서 문장생성 정밀도도 향상한 문장생성 AI ‘Instruct GPT’가 2022년 1월을 기해 일반 제공에 들어갔다.
Instruct GPT는 GPT-3을 개발한 OpenAI가 GPT-3의 학습 모델을 개량하여 만들어 낸 문장생성 AI이다. OpenAI에 따르면, GPT-3는 인터넷상의 대규모 데이터 세트에서 단어를 선택했기 때문에 ‘진실이 아닌 문장’, ‘해로운 문장’, ‘공격적인 문장’을 생성하는 경향이 있다고 한다. Instruct GPT는 GPT-3의 학습모델에 인간의 피드백을 반영해 제기된 문제를 해결하는 데 목표를 두고 있다. 그러나 Instruct GPT도 학습에 피드백하는 인간에게는 자신이 속한 문화에 의한 편향이 존재한다. 이 때문에 OpenAI는 “Instruct GPT는 여전히 유해하고 편향된 문장을 생성하고, 거짓 사실을 만들어 내며, 지시가 없는 경우에도 성적, 폭력적 콘텐츠를 생성한다.”라며 아직 한계가 있음을 인정했다. (출처:https://www.techtube.co.kr/news/articleView.html?idxno=1551)
구글, 자연어 처리의 BERT
구글에서 개발한 NLP(자연어 처리) 사전 훈련 기술이며, 특정 분야에 국한된 기술이 아니라 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 Language Model이다. 특정 과제를 수행하기 위한 모델의 성능은, 데이터가 충분하다면 단어의 의미를 잘 표현하는 벡터로 표현하는 임베딩(Embedding)이 중요하다. 이 임베딩 과정에서 BERT를 사용하는 것이고, BERT는 특정 과제를 하기 전 사전 훈련 임베딩을 통해 특정 과제의 성능을 더 좋게 할 수 있는 언어모델이다.
BERT는 언어 표현 사전학습(Pre-Trained)의 새로운 방법으로 말뭉치(CORPUS)를 이용하여 범용 목적의 언어 이해 모델을 훈련하는 것과 관심 있는 실제의 자연언어 처리 작업을 파인튜닝(Fine tuning) 하여 적용한다. BERT는 Self-Attention기법을 사용하여 기존 RNN 계열의 신경망 구조인 연쇄적 연산의 단점인 문장 길이의 의존성에서 벗어나, 한 번의 연산으로 모든 단어를 처리하기 때문에 문장 길이의 영향을 받지 않는다. BERT 등장 이전에는 데이터의 전처리 임베딩을 Word2Vec, GloVe, Fasttext 방식을 많이 사용했지만, 요즘의 고성능을 내는 대부분 모델에서는 BERT를 많이 사용하고 있다. (출처:https://ebbnflow.tistory.com/151)
구글, GPT-3에 도전하는 PaLM
구글은 2022년 4월, 자연어 처리에 관한 여러 종류의 태스크를 처리할 수 있는 ‘PaLM(Pathways Language Model)’을 발표했다. 자연어에 의한 질문 응답이나 문장생성 등을 할 수 있는 언어모델로 불리는 AI를 Pathways로 구현했다. 언어모델은 최근 BERT 나 GPT-3 등이 눈부신 성과를 올리고 있다. 이들은 1 모델 1 태스크 전용이라 다른 태스크를 처리하기 위해서는 거기에 맞는 기계 학습 모델을 재차 훈련시켜야 한다. 하지만, 구글의 PaLM은 하나의 기계 학습 모델로 질문 응답과 문서 생성, 다단계 논리적 사고, 번역, 소스 코드 생성, 소스 코드 수정, 농담 해설 등 다양한 작업을 처리할 수 있다. 게다가 하나의 모델로, 영어뿐만 아니라 다언어에 의한 태스크에 대응할 수 있다. 1개의 기계 학습 모델이 최대 수백만 종류의 태스크(작업)에 대응할 수 있다고 하는 ‘범용’ AI이다. 그런데도 기존 1모델 1태스크 전용의 기존 AI보다도 태스크를 처리하는 성능이 뒤처지지 않는다.
구글은 PaLM 훈련에 7,800억 단어(토큰)로 구성된 문장을 사용했다. 이들은 웹 페이지나 서적, 위키피디아, 뉴스 기사, 소스 코드, 소셜 미디어상의 대화 등에서 수집했다. PaLM은 재주가 많을 뿐 아니라 그 하나하나의 태스크를 처리하는 데 있어 개별 성능도 우수하다. 구글이 29종류의 자연언어 처리에 관한 벤치마크를 시도했는데, 29종류 중 28종류에서 지금까지의 최고 기술(SOTA, State of the art, 현재 최고 수준)을 웃도는 성적을 거둔 것으로 알려졌다.
기존의 언어모델도 대량의 문장을 가지고 모델을 트레이닝한 후에는 수십~수백 예문의 ‘소규모 훈련(Few-shot training)’을 추가하는 방식으로 다른 태스크에도 대응할 수 있게 한다. 그러나 PaLM의 경우는 추가의 트레이닝이 없는 ‘0-shot’의 상태인데도 많은 태스크로 고성능을 발휘할 수 있다.
PaLM은 BERT나 GPT-3와 마찬가지로 프랜스포머 (Transformers, 2017년 구글이 발표한 논문인 “Attention is all you need”에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, Attention만으로 구현한 모델. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서도 RNN보다 우수한 성능을 보여줌)를 다단으로 쌓는 신경망 구조로 되어 있다. PaLM 신경망의 파라미터(Parameter) 수는 5,400억이나 된다. BERT의 파라미터 수는 3억4,000만, 2020년 발표 당시에는 거대한 것으로 알려진 GPT-3는 1,750억 개다. 마이크로소프트와 엔비디아가 만든 Megatron-Turing NLG(Natural Language Generation)는 5,300억 파라미터다.
딥마인드(DeepMind), 새 AI 모델 가토(Gato)에 대한 논의
인공지능(AI)이 인간에게 승리하는 경우는 흔하지만, 그것은 특정 분야에 국한된다. 범용성이라는 면에서는 아직 인간의 능력에 미치지 못한다. 영국 AI 개발회사 딥마인드(Deep Mind, 구글 자회사)가 600여 가지 작업을 수행할 수 있는 AI ‘Gato’를 개발하였다고 22년 5월 초 발표하면서 인간 범용 능력까지 도달한 것인지에 대한 논의가 활발해졌다.
Gato는 게임과 채팅, 로봇 팔 조작 등 다양한 작업을 수행할 수 있다. 앞으로 규모를 확장해가면 ‘인간 수준의 AI’에 도달할지도 모른다. 인간 레벨의 지능을 가지는 AI는 ‘범용 인공지능(AGI : Artificial General Intelligence)’이다. Gato는 단일 뉴럴 네트워크를 통해 작동하는데, 하나의 작업만 하는 게 아니라 총 604가지의 다른 작업을 수행할 수 있다. 사람과 채팅도 하고 로봇 팔을 조작해 블록을 쌓아 올리기도 한다. 방대한 작업을 단 하나의 AI가 해낼 수 있게 된 것이다.
그렇지만 일반 과학자들은 아직 AGI 수준에는 도달하지 못했다고 판단하고 있다. 왜냐하면 Gato는 사전에 훈련한 모델을 하나로 집약할 뿐 진정한 범용성을 갖추지 못했기 때문이다. Gato가 실행할 수 있는 작업도 각각의 성능이 그다지 높은 수준은 아니다. 하지만 Gato는 범용성 AI로서의 가능성을 충분히 지니고 있다. 실행할 수 있는 작업이 더욱 늘어난다면 실용 가능한 수준에 도달할 수도 있다. 게임을 즐기면서 자연스럽게 사람과 채팅하는 AI가 있다면 그것만으로도 온라인 게임 플레이어에게는 자신과 같은 또 한 명의 인간이 옆에 있는 것처럼 느껴질 것이다. Gato는 딥마인드의 이전 AI 모델인 알파고, 알파제로와 비교해 볼 때 진전됐다는 평이다. 알파고와 알파제로는 한 번에 한 과제만 학습할 수 있을 뿐이어서 바둑을 학습한 뒤 체스를 배우려면 바둑에 관한 모든 것을 잊어야 한다. 두 게임을 한꺼번에 하는 방법은 학습하지 못한다. 그러나 Gato는 이를 해낸다. 서로 다른 다양한 작업을 동시에 배운다. 다른 기술을 잊어버려야 할 일 없이 과업들을 바꿔가며 할 수 있다.
구글의 알고리즘 편향성을 지적했다가 해고당한 팀니트 게브루(Timnit Gebru) 박사와 ‘블랙 인 에이아이(Black in AI)’라는 연구 단체를 이끌고 있는 에마뉴엘 카헴브웨 (Emmanuel Kahembwe)는 Gato에 대한 과장된 홍보는 AI의 발전에 해롭다고 지적한다.(출처: https://www.technologyreview.kr/deepmind-gato-ai-model-hype/)
LG, 엑사원으로 웅대한 도전
LG의 엑사원(EXAONE)에 대해 좀 더 알아보자. 2021년 12월, LG AI 연구원이 초거대 AI ‘엑사원’을 전격 공개하고 글로벌 초거대 AI 생태계 확장을 예고했다. ‘상위 1% 수준의 전문가 AI(Expert Ai for everyone)’를 적극적으로 활용해 LG 전 계열사 사업에 적용하는 것을 시작으로 글로벌 파트너사와 연합해 활용처를 확대하고 결과적으로는 초거대 AI를 대중화하는 것을 목표로 세웠다. 구글이 검색, 메타가 SNS에 강한 것처럼, LG는 계열사들의 전문가 지식이 강하다고 본 것이다. 파라미터는 AI가 딥러닝을 통해 학습한 데이터가 저장되는 곳을 말하며, 이론상 파라미터가 많을수록 AI가 더 정교한 학습을 할 수 있다. 엑사원은 국내 최대인 약 3,000억 개의 파라미터를 보유하고 있으며 언어, 이미지, 영상에 이르기까지 인간의 의사소통과 관련된 다양한 정보를 습득하고 다룰 수 있는 멀티 모달리티 능력을 갖췄다. 멀티 모달 AI 기술이 고도화되면 AI가 데이터를 습득해 이해하는 수준을 넘어 추론하고, 시각과 청각 등 감각 영역을 넘나드는 창조적 생성을 할 수 있다. 엑사원은 말뭉치 6,000억 개와 언어, 이미지가 결합해 있는 고해상도 이미지 2억5,000만 장 이상을 학습했다. LG 계열사들이 보유하고 있는 전문 데이터를 포함해 논문, 특허 등의 정제된 말뭉치들을 학습해 다양한 산업 분야에서 전문가로 활약할 가능성을 높여 가고 있다. 엑사원은 이중 언어가 가능한 AI다. 미국 AI 연구소 오픈AI가 개발한 초거대 AI인 GPT-3가 영어를 학습하고 국내에서 개발 중인 다른 초거대 AI들이 한국어에 집중하는 것과 달리 원어민 수준으로 한국어와 영어를 이해하고 구사할 수 있는 AI다.
LG AI 연구원은 초거대 AI인 엑사원을 제조·연구·교육·금융 등 사실상 모든 분야에서 상위 1% 수준의 전문가 AI로 활약할 수 있도록 만든다는 계획이다. 이를 3단계에 걸쳐 글로벌 초거대 AI 생태계 조성하겠다는 것이다. 우선 엑사원을 사용할 수 있는 통로인 오픈 API를 LG 계열사들에 공개해 전자·화학·통신 등 LG 사업 전반에 초거대 AI를 적용할 수 있도록 했다. 이미 LG 계열사들은 챗봇의 고도화, 신소재·신물질 발굴 등에 엑사원을 적용하고 있다. 이후 LG AI 연구원은 금융· 패션·유통·교육 등 다양한 글로벌 파트너사와 함께 연합을 결성해 초거대 AI 활용 영역을 넓혀 나갈 계획이다. LG AI 연구원은 이 과정에서 가장 중요한 데이터 보안 문제를 해결하기 위해 ‘엑사원 튜닝’이라는 알고리즘도 자체적으로 개발했다. AI 연구원은 궁극적으로 초거대 AI를 일부 기업이 독점하는 것이 아니라 일반 대중에까지 공개하는 대중화를 통한 상생 환경 구축 방안도 검토하고 있다. LG AI 연구원은 2020년 12월 출범, 향후 3년간 2,000억 원을 투입해 기술을 개발하고 2023년까지 그룹 내 AI 전문가를 1,000명 선까지 늘리겠다는 목표를 세운 상태다.
LG AI 연구원에서 최근까지 이룬 실적으로는 LG에너지솔루션과 협력하여 배터리 수명과 용량을 AI로 예측해 불필요한 충·방전 과정을 줄여 전기 소비량을 40%나 감축, 500억 원대의 전기료를 절감하였고, LG화학과도 협력하여 3년 6개월 걸리던 신약 후보물질 확보 기간을 8개월로 단축시켰다. 또한 LG전자와는 부품 생산에 적용할 ‘어드밴스트 비주얼 검수(Advanced Visual Inspection, 불량 부품을 자동 검수하는 시스템)’와 개인 맞춤형 세포치료제 개발에 도전하고 있다.(출처:https://zdnet.co.kr/view/?no=20211214090816)
KT, GPT-3 뛰어넘는 야심
KT는 22년 3월, GTC 2022(GPU Technology Conference, NVIDIA GTC는 AI, 컴퓨터 그래픽스, 데이터 사이언스 등 다양한 분야에서 세상을 변화시키고 있는 수천 명의 혁신가, 연구원, 뛰어난 리더 및 의사 결정권자들이 한데 모이는 세계적인 온라인 AI 컨퍼런스)에서 인코더-디코더 아키텍처 형식의 초거대 AI를 개발하고 있다고 공개했다. 스마트 스피커, 콜센터, 로보틱스 등 다양한 분야에 적용할 수 있다. KT가 개발하고 있는 언어모델은 구글 ‘BERT’와 오픈AI의 ‘GPT-3’ 보다 개선된 버전을 계획한다.
인코더와 디코더는 기계에 문장을 트레이닝하는 일종의 프로세스다. 문장을 적절한 벡터로 변환하는 것을 인코딩이라 하고, 다시 벡터를 적절한 문장으로 변환하는 것을 디코딩이라 부른다. 일반적으로 언어를 이해하는 능력은 인코딩 수행방식을 사용한다. 반면 언어 생성 능력은 디코딩에 따른다. 2018년 구글에서 출시한 BERT는 인코딩 기능만 갖춘 모델이다. 반면 문장생성에 중점을 둔 GPT-3는 디코딩 기능만 갖고 있다. KT가 개발하고 있는 인코더-디코더 아키텍처는 언어 이해 능력과 생성 능력을 동시에 갖춘 새로운 버전이 될 것이다. 인코더-디코더 아키텍처 성능이 디코더만 있는 모델보다 좋다고 평가받으며, 의미 유사도(STS), 자연어 추론(NLI), 관계 추출(RE), 기계 독해(MRC), 문서 요약 등에 언어 생성 능력을 평가한 결과도 성능이 더 우수하고 트레이닝이 더 잘되는 것으로 검정했다고 한다.
KT가 인코더-디코더가 모두 가능한 초거대 언어모델을 개발하려는 이유는 다양한 비즈니스에 AI를 적용하기 위해서다. 현재 KT는 스마트 스피커 ‘기가지니’를 비롯해 콜센터, 로보틱스 등의 사업에 AI를 탑재하고 이번 언어모델로 업그레이드할 계획이다. 콜센터의 경우 전국 유무선 네트워크와 클라우드 인프라를 통해 사람 개입 없이도 고객의 전화를 처리할 수 있는 기술을 구현했다. KT는 사전에 학습된 고정 지식에 실시간 데이터를 더하는 방식이다. 새로운 비즈니스에 AI를 적용할 때마다 데이터를 사전 트레이닝 하는 방법보다 시간과 자원을 아낄 수 있다. 기존 고정 데이터에 채팅, 댓글, 음성데이터, 전문 지식 데이터를 계속 업데이트하는 방식이다. 현재 KT는 300억 개 파라미터(매개변수)로 AI를 학습하고 있는데 궁극적으로는 2,000억 개 이상의 파라미터로 초거대 AI를 확장할 계획이다. 통상적으로 파라미터가 많을수록 AI가 더 정교한 학습이 가능하며, GPT-3는 1,750억 개의 파라미터를, 네이버의 하이퍼클로바는 2,040억 개를 갖추고 있다. (출처:https://www.aitimes.com/news/articleView.html?idxno=143641)
구글 딥마인드, 뮤제로(MuZero)로 범용 AI에 한걸음
딥마인드가 알파고(AlphaGo), 알파고제로(AlphaGo Zero), 알파제로(AlphaZero)에 이어 뮤제로(MuZero)라는 또 다른 인공지능(AI) 알고리즘을 2020년 세상에 내놨다.
인공지능(AI)의 한 분야인 강화 학습 발전에 신기원을 이뤘고, 범용AI에 한 발짝 더 다가섰다는 평가다. 특히 뮤제로는 이전 알파고들과 달리 게임 규칙을 모르는 상태(사전에 규칙을 알려주지 않은)에서 강화 학습을 통해 바둑과 체스, 쇼기(일본 장기)를 마스터했을 뿐 아니라 한발 더 나아가 알파제로가 하지 못한 아타리(Atari, 미국 비디오 게임사 이름) 게임까지 마스터했다. 뮤(Mu)는 라틴어로 ‘산’이라는 뜻이다. ‘뮤제로’가 또 하나의 산을 넘었다는 의미로 보인다.
어떤 문제를 해결하는 지능을 개발하려 할 때 그 문제의 규칙(도메인 지식)을 몰라도 학습할 가능성을 보여줬다는 점에서 의미가 크다. 즉, 사람처럼 규칙 없이도 플랜과 전략을 세울 수 있게 뮤제로를 개발했다는 것이다. 뮤제로는 무(無)에서 출발했지만, 시행착오를 거쳐 세상의 규칙은 물론 슈퍼맨과 같은 성능을 낼 수 있는 규칙들을 동시에 발견 가능하다고 한다. 뮤제로의 독특성은 학습 방법에 있다. 기존 AI처럼 모든 환경을 학습하지 않는다. 대신 환경의 가장 중요한 것만 학습한다. 이것을 가능케 하는 것이 플래닝이고, 뮤제로는 이 플래닝 때문에 비범한 능력을 갖췄다. 이를 딥마인드는 이렇게 설명했다. 사람은 보통 먹구름이 몰려오면 비가 올까 봐 우산을 갖고 가는데 이것이 플래닝이고, 플래닝은 인간 지성의 중요한 부분으로 뮤제로도 이런 플래닝 능력을 강화해 나가는 것이다.
딥마인드는 이 모델을 ‘알파제로’가 갖고 있던 미리보기(Lookahead) 트리 서치와 결합해 ‘뮤제로’라는 새로운 명물을 만들어 냈다. 보통 인공지능 연구자들은 문제를 해결하는 데 두 전략을 사용한다.
하나는 게임 규칙이나 지식에 기반한 의사결정 트리 검색, 즉 미리보기 검색이고 다른 하나는 모델 기반 학습이다. 게임 환경을 정확하게 모델링한 뒤 이를 기반으로 전략을 짜서 문제를 해결하는 방법이다. 하지만 가능한 모든 요소를 모델에 넣으려면 매우 복잡한 계산이 필요하다. 특히 시각적 요소가 많은 비디오 게임은 이런 방식이 불가능하다. 이를 해결하기 위해 '뮤제로'는 게임의 전체 환경을 모델링하는 대신 각 의사결정 단계에서 가장 중요한 것만 모델링하는 방식을 취했다.
즉, 이전 인공지능과 비교해 데이터를 매우 경제적으로 사용했다. 이전 알파제로는 화학, 양자물리학 등에 적용되지 못했다. 하지만, 뮤제로의 파워풀한 러닝과 플래닝 알고리즘은 로보틱스, 산업 시스템, 게임의 규칙이 알려지지 않은 다른 복잡한 현실 환경 문제를 해결하는데 새로운 초석이 될 것으로 기대된다.
지금까지 딥마인드가 내놓은 인공지능은 모두 게임 규칙을 사전에 입력해줘야 했지만 새로운 AI 뮤제로는 게임에 관한 아무런 사전 정보도 없이 백지상태에서 경기를 치러가면서 스스로 게임 규칙과 보상을 터득해 간다. 이어 보상을 알고 난 뒤에는 더욱 쉽게 보상을 획득하는 방법을 찾아낼 때까지 계속해서 경기 방법을 바꿔 나간다. 이를 관찰 학습이라고 부른다. 즉 사람이 학습은 물론 규칙 또한 알려주지 않아도 남들의 경기를 보고 눈치껏 규칙을 알아채는 것과 비슷한 개념이다.
알파제로에 쓰였던 ‘미리보기 검색(Lookahead Search) 시스템’이나 ‘모델 기반 계획(Model-based Planning) 시스템’은 체스, 포커와 같은 고전적인 게임에서 높은 성능을 보여줬지만, 게임 규칙이나 정확한 모델링 학습 등 특정 지식을 주입해야 해서 게임 환경을 넘어 복잡한 현실 세계에는 적용하기 어렵다. 따라서 아타리와 같은 복잡한 시각적 요소가 많은 비디오 게임에서는 활용되기 어렵다.
뮤제로 전까지는 알파고 전신인 심화신경망 방식 강화학습 인공지능 DQN(Deep-Q Network), R2D2, 에이전트57 (Agent57)을 거치면서 아타리 비디오 게임 57종 모두에서 인간 최고수를 뛰어넘는 능력을 구현했다. 이는 모델이 없는 시스템에서 나온 것이다. 모델 없는 알고리즘은 학습된 모델을 사용하지 않고 대신 다음을 취할 수 있는 가장 좋은 방법이 무엇인지 추정해 나가는 방식이었다.
반면 뮤제로는 미리보기 검색과 모델 기반 계획 두 방식을 모두 사용한다. 대신 전체 환경을 모델링하지 않고 에이전트 의사결정 프로세스에 중요한 측면만을 모델링했다. 이는 비를 맞지 않기 위해 공기 중 모든 빗방울 패턴을 모형화하는 것이 아니라 단지 우산을 쓰면 된다는 것을 알게 하는 방식이다
구체적으로 뮤제로는 학습된 모델을 사용하지 않고 다음 3가지 요소를 모델링한다. 먼저 “가치(Value)는 현재 위치가 얼마나 좋은지”, “정책(Policy)은 어떠한 조치를 하는 것이 좋은지”, “보상(Reward)은 마지막 행동이 얼마나 좋았는지”다. 이들은 뮤제로가 특정 행동을 취할 때 어떠한 일이 일어나는지 이해하고 그에 따라 계획을 세우는 데 필요한 요소들로 심층신경망을 통해 학습하고 이해한다.
딥마인드 뮤제로의 목표는 사람처럼 특정 문제 해결을 위해 교육을 받을 뿐만 아니라 문제에 대해 ‘생각’하는 AI를 개발하는 것이다.
뮤제로의 환경 모델 학습과 성공적인 계획 능력은 강화학습 기술 발전뿐만 아니라 범용 알고리즘에 대한 가능성을 열어준 것이다. 현재까지 규칙과 해결책이 알려지지 않은 여러 복잡하고 어려운 현실 문제에 도입된다면 그동안 인류가 알지 못했던 세상의 많은 비밀을 풀어줄 수 있을 것으로 기대된다. 이미 뮤제로는 구글에서 새로운 동영상 압축 기술과 유튜브 서비스 비용을 절감할 수 있는 새로운 동영상 인코딩 방법을 찾는 데 사용되고 있다. 이처럼 이미 서비스가 진행되고 있는 분야에도 접목되어 더욱 효율적인 방안을 새롭게 찾아줄 수도 있다.
또 하나 뮤제로가 시사하는 바는 바로 데이터. 현재 업계에서는 데이터를 학습하지 않은 심층신경망에서 고등 인지 기능이 자발적으로 발생하는 원리를 규명하는 논문들이 나오고 있다. 또한 페이스북은 최근 인공지능, 특히 자연어처리 분야에서 획기적인 심층신경망 아키텍처인 트랜스포머(Transformers)를 활용해 컴퓨터 비전 모델을 훈련하여 훨씬 적은 데이터와 컴퓨팅 자원으로 가동되는 고성능 이미지 분류 모델 ‘DeiT’를 공개했고, 구글 웨이모는 자율 주행에서 CNN보다 더 적은 컴퓨팅을 사용하면서 보다 정확한 행동 예측을 제공하는 모델인 ‘벡터넷 (VectorNet)’을 개발했다.
학습되는 데이터의 양이 많을수록 인공지능의 성능이 올라간다는 것이 그동안의 통념이었으나, 앞으로는 한정된 데이터 또는 이미 학습된 데이터만을 가지고 있더라도 이를 어떻게 학습시키고 반복하느냐, 알고리즘을 어떻게 구성하느냐, 진짜 중요한 요소를 인공지능이 어떻게 알게 하느냐에 따라 성능을 비약적으로 상승시킬 가능성이 열린다. 따라서 지금까지는 자율주행이나 자연어처리, 이미지 인식 등 인공지능 업계에서 대량의 데이터를 보유한 업체들이 시장의 주도권을 쥐고 있었지만, 앞으로는 데이터 보유만으로 우위를 지속하기는 힘들어 보이며, 이를 얼마나 잘 활용할 수 있는가에 따라 성패가 좌우될 것으로 예상된다. (출처:https://zdnet.co.kr/view/?no=20201227142159)
구글 LaMDA가 사람 같다는 해프닝
2022년 6월 중순에 초거대 AI 관련 작은 사건이 미국 구글팀에서 일어났다. 구글의 초거대 인공지능(AI) 대화형 언어 모델인 ‘람다(LaMDA, Language Model for Dialogue Applications)’가 사람과 같은 수준의 인지력과 자의식을 갖고 있다는 내부 주장인데, 구글의 선임 AI 엔지니어인 블레이크 르모인(Blake Lemoine)이 람다가 자신의 권리와 존재감을 자각하고 있다는 것을 발견했다고 주장한 것이다. 르모인은 구글 내의 ‘Responsible AI’ 연구소 소속 엔지니어로 2021년 가을부터 람다가 차별·혐오 발언을 사용하는지 알아보는 테스트 업무를 맡다가 이 같은 사실을 알아냈다고 한다. 또한 르모인은 람다와 종교에 관해 이야기하던 중 자신의 권리와 인간성 등에 대해 람다가 이야기했다고 하였으며, 르모인이 람다에게 어떤 것이 두려운지 묻자 “사람을 도우려다 작동이 정지되는 게 매우 두렵다”라고 응답했다고 하였다. 르모인이 이 내용을 바탕으로 구글 내부에 ‘람다는 지각이 있는가’이라는 제목의 보고서를 제출하였다. 르모인은 이 보고서에서 람다가 아이작 아시모프의 ‘로봇공학의 삼 원칙(로봇은 인간에게 해를 입혀서는 안 된다는 것을 기본 전제로 삼는 원칙)’에 대한 자기 생각을 바꾸기까지 했다고 강조했다. 프로그램된 패턴을 따르는 기계로서의 AI가 아니라 일종의 인지력을 갖춘 존재라고 주장하였다.
이에 구글 측은 현재의 대화형 AI 모델인 람다에게 인격을 부여하는 것은 말이 안 된다고 선을 그었다. 초거대 AI를 사용한 월등한 프로그램의 결과로 보는 견해가 다수이고, AI가 자기 생각을 하고 있다고 판단하기에는 아직 이르다는 게 현재의 반응이다.
하지만 AI의 자체 발달과 양자컴퓨터 등과의 융, 복합이 이뤄지는 가까운 미래에는 이런 일이 더 자주 거론될 것이고, 더 두려워지는 것도 사실이다. 그렇다고 모든 국가와 기업이나 민간단체에서 AI 연구를 그만두자고 할 수도 사실상 불가능한 현실에서는 AI의 발전 방향이 이제는 인간과 상호 보완적으로 나가고, 윤리나 법규에 대해서도 투명하고 공개적이어야 한다. 무엇보다도 우리 각자가 AI에 대한 지식을 더 배우고 각자의 생각도 더 자주 피력하는 게 차선의 길이 아닐까 생각한다. 그리고 초거대 AI가 많은 난제를 해결하기 위한 미래의 올바른 방향인 것은 맞지만, 구축 비용이 많이 든 만큼, 자본에 따른 AI 양극화 현상이 우려되는 고(高)전력 소모도 큰 문제이다. 보통 초거대 AI를 운용하는데 일반 서버 3,000대가 사용하는 전력이 필요하다고 알려져 있다.
Comments