banner

소식

Jan 31, 2024

과학자들이 마음을 정했다

연구원들은 DALL-E 및 ChatGPT와 같은 텍스트 및 이미지 생성 도구를 지원하는 AI 언어 모델 뒤에 있는 가장 큰 미스터리 중 하나를 풀기 시작했습니다.

한동안 기계 학습 전문가와 과학자들은 OpenAI의 GPT-3 및 Google의 LaMDA와 같은 대규모 언어 모델(LLM)에서 이상한 점을 발견했습니다. 즉, 수행하도록 특별히 교육받지 않은 작업을 설명할 수 없을 정도로 잘 수행하는 것입니다. 이는 당혹스러운 질문이며, 대부분의 경우 AI 모델이 출력에 어떻게 도달하는지 세밀하게 설명하는 것이 얼마나 어려울 수 있는지(대부분의 경우)에 대한 한 가지 예일 뿐입니다.

arXiv 사전 인쇄 서버에 게시될 예정인 연구에서 스탠포드 대학교 매사추세츠 공과대학 연구원과 Google은 "상황 내 학습"이라고 불리는 이 "분명히 신비한" 현상을 탐구합니다. 일반적으로 새로운 작업을 수행하려면 대부분의 기계 학습 모델을 새로운 데이터에 대해 재교육해야 합니다. 이 프로세스는 일반적으로 연구자가 원하는 결과를 얻기 위해 수천 개의 데이터 포인트를 입력해야 하는 지루하고 시간 소모적인 노력입니다.

그러나 상황 내 학습을 통해 시스템은 몇 가지 예만으로 새로운 작업을 안정적으로 수행하는 방법을 학습할 수 있으며, 기본적으로 새로운 기술을 즉석에서 습득할 수 있습니다. 프롬프트가 제공되면 언어 모델은 입력 및 출력 목록을 가져와 명시적으로 훈련되지 않은 작업에 대해 새롭고 종종 정확한 예측을 생성할 수 있습니다. 이러한 종류의 동작은 기계 학습 연구에 매우 좋은 징조이며, 이것이 발생하는 방법과 이유를 밝히면 언어 모델이 정보를 학습하고 저장하는 방법에 대한 귀중한 통찰력을 얻을 수 있습니다.

하지만 학습하는 모델과 단순히 암기하는 것이 아닌 모델의 차이점은 무엇입니까?

연구의 주 저자이자 MIT 박사 과정 학생인 Ekin Akyürek은 "학습은 [기존] 지식과 얽혀 있습니다."라고 마더보드에 말했습니다. "우리는 모델에 적용하는 매개변수 업데이트 없이 이러한 모델이 예제로부터 즉석에서 학습하는 것이 가능하다는 것을 보여줍니다."

이는 모델이 단순히 훈련 데이터를 복사하는 것이 아니라 인간과 동물처럼 이전 지식을 기반으로 구축될 가능성이 높다는 것을 의미합니다. 연구원들은 ChatGPT나 최근 대중이 너무 좋아하게 된 다른 인기 있는 기계 학습 도구를 사용하여 자신의 이론을 테스트하지 않았습니다. 대신 Akyürek 팀은 더 작은 모델과 더 간단한 작업을 사용했습니다. 그러나 동일한 유형의 모델이기 때문에 그들의 작업은 더 잘 알려진 다른 시스템의 기본 사항에 대한 통찰력을 제공합니다.

연구자들은 모델에 합성 데이터를 제공하거나 프로그램이 이전에는 볼 수 없었던 프롬프트를 제공하여 실험을 수행했습니다. 그럼에도 불구하고 언어 모델은 이들로부터 지식을 일반화하고 추론할 수 있었다고 Akyürek은 말했습니다. 이로 인해 팀은 상황 내 학습을 보여주는 AI 모델이 실제로 새로운 작업을 달성하기 위해 내부에 더 작은 모델을 생성한다는 가설을 세웠습니다. 연구자들은 문장의 단어와 같은 순차적 데이터의 관계를 추적하기 위해 "self-attention"이라는 개념을 적용하는 신경망 모델인 변환기를 분석하여 자신의 이론을 테스트할 수 있었습니다.

실제로 작동하는 모습을 관찰함으로써 연구원들은 변환기가 숨겨진 상태 또는 입력 계층과 출력 계층 사이의 공간에서 자체 기계 학습 모델을 작성할 수 있음을 발견했습니다. 이는 언어 모델이 자체적으로 "잘 알려져 있고 광범위하게 연구된 학습 알고리즘"을 겉보기에 발명하는 것이 이론적으로나 경험적으로 가능하다는 것을 시사한다고 Akyürek은 말했습니다.

즉, 이러한 대규모 모델은 더 작고 단순한 언어 모델을 내부적으로 생성하고 학습함으로써 작동합니다. Matryoshka와 같은 컴퓨터 내부 시나리오로 상상하면 개념을 더 쉽게 이해할 수 있습니다.

연구팀의 결과에 대해 페이스북 AI 연구 과학자인 마크 루이스는 성명에서 “이 연구는 모델이 어떻게 더 복잡한 작업을 학습할 수 있는지 이해하는 디딤돌이며 연구자들이 언어 모델의 성능을 더욱 향상시키기 위해 더 나은 훈련 방법을 설계하는 데 도움이 될 것”이라고 말했습니다. "

공유하다