OpenAI가 새로운 인공지능 언어 모델 GPT-4를 출시하였습니다. 이제는 단순 채팅이 아닌 이미지도 입력할 수 있다고 하는데요. 챗GPT로 알려진 GPT-3.5와 비교하여 어떤 점이 달라졌는지 5가지로 정리하였습니다.
1. GPT-4는 이미지를 보고 이해할 수 있습니다.
GPT-4에서 가장 눈에 띄는 변화는 <멀티모달 multimodal>이 가능해졌다는 점입니다. 멀티모달이란 시각, 청각 등 여러 가지 인터페이스를 통해 정보를 주고받는 것을 의미합니다. 즉, 이제 GPT-4가 적용된 chatGPT에서는 단순히 텍스트가 아닌 이미지로도 소통이 가능하다는 것입니다.
GPT-4에 이미지를 입력하면 이미지와 관련된 정보를 찾는 처리를 하게됩니다. 그럼 처리된 정보를 기반으로 단순히 이미지 속에 무엇이 있는지 설명해 달라고 할 수 있지만, OpenAI는 활용성을 단순한 설명 그 이상을 바라보고 있습니다.
바로 시각장애인을 위해 사용하는 것입니다. 오픈AI는 시각장애인이나 저시력자들을 위한 앱인 <비 마이 아이즈 Be By Eyes>와 파트너십을 맺어 시각장애인을 위한 서비스를 하고자 합니다.
비 마이 아이즈에서 제공한 비디오에 따르면 GPT-4는 드레스 패턴을 설명하고, 식물을 식별하고, 체육관에 특정 운동기구로 가능 방법을 설명하고, 지도를 읽는 듯 많은 작업을 수행합니다.
2. GPT-4는 속이기 어려워졌습니다.
챗GPT를 사용하시면서 챗GPT에게 잘못된 정보를 입력해 본 경험이 있으신가요? 또는 chatGPT가 다른 사람들이 잘못 주입한 엉뚱한 정보를 받아보신 적은요? 지금까지는 사용자가 맘만 먹으면 잘못된 정보를 아주 쉽게 chatGPT에게 알려줄 수 있었는데요. GPT-4에서는 이러한 점이 개선되었습니다.
GPT-4는 지난 1~2년간 사용자가 OpenAI에 유용하게 제공한 수많은 악성 프롬프트에 대해 트레이닝 받았습니다. 이를 염두한 새 모델은 "사실기반성(factuality), 조향성(Steerability), 가드레일 밖으로 나가는 것을 거부"하는 측면에서 이전 모델보다 업그레이드 되었습니다.
오픈 AI는 현재 chatGPT에 적용된 GPT-3.5는 새로운 트레이닝 아키텍처의 "테스트 실행"이었으며, 그 테스트에서 얻은 교훈을 "전례 없이 안정적인" 새로운 버전에 적용했다고 설명하였습니다.
3. GPT-4는 좀 더 기억력이 좋아졌습니다.
GPT와 같은 대규모 언어 모델(Large launguage model)은 수백만 개의 웹페이지, 책, 기타 덱스트 데이터에 대해 훈련되지만, 실제로 사용자와 대화할 때는 chatGPT의 "기억 속"에 얼마만큼 간직할 수 있는지는 한계가 있습니다. GPT-3.5를 비롯한 이전 버전에서의 chatGPT의 한계는 약 8,000 단어, 즉 책으로 따지면 약 4~5페이지에 해당하는 4,096개의 "문서"였습니다. 그래서 chatGPT와 신나게 대화를 하다가 8000 단어를 넘어가면 이전에 했던 내용은 chatGPT의 기억에서 사라지게 됩니다.
GPT-4의 최대 토큰 수는 2의 15 제곱인 32,768개입니다. 이 숫자는 단어로 하면 64,000 단어, 페이지로는 50페이지 분량의 텍스트로 연극 한 편이나 단편 소설 한 권 정도의 분량은 충분히 소화할 수 있는 용량입니다.
이것이 의미하는 바는 대화를 하거나 chatGPT를 이용해 문서를 생성할 때 50페이지 분량까지는 충분히 가능하다는 것입니다. chatGPT로 에세이를 쓰거나 웹소설을 쓸 때 이제는 35페이지 전에 일어난 사건들도 언급할 수 있게 되었습니다.
GPT의 기본이 되는 대규모 언어 모델(Large launguage model, LLM)에 대해 더 자세히 알고 싶으신 분들은 LLM에 대해 설명한 2편의 포스트가 있으니 참고해 주세요.
메타(페이스북)도 AI기반 대용량 언어 모델(LLM) 라마(LLaMa) 출시, 그래서 LLM이 뭐야? (1)
메타(페이스북)도 AI기반 대용량 언어 모델(LLM) 라마(LLaMa) 출시, 그래서 LLM이 뭐야? (2)
4. GPT-4는 다양한 언어를 지원합니다.
chatGPT에게 한글보다 영어로 명령을 했을 때 보다 퀄리티 높은 답변을 받을 수 있다는 것은 널리 알려진 사실입니다. 그래서 한국에서 chatGPT를 이용하시는 분들은 파파고나 구글 번역을 이용해서 영어로 명령어를 입력하시거나 자동번역 확장프로그램을 깔아서 사용하시기도 합니다.
GPT-4에서는 한국어를 포함한 26개 언어에 거쳐 수천 개의 객관식 질문에 높은 정확도로 대답할 수 있는 것으로 보여줌으로써 다국어 인공지능 챗봇으로 한걸음을 내디뎠습니다. 물론 로망스어(라틴어계열)와 게르만어에 가장 최적화되어 있지만 다른 언어에도 잘 일반화되어 있습니다.
언어능력은 초기 언어 기능 테스트에서 충분한 가능을 보였지만 아직 다국어 기능이 완벽하다고는 할 수 없습니다. 다국어 테스트 항목들은 일단은 영어로 작성된 것을 번역한 내용으로 진행되었지만 특별히 훈련하지 않은 부분에 대해서도 괜찮은 수행능력을 보였습니다. 이에 GPT-4는 기존 GPT-3.5 기반 chatGPT보다 비영어권 사용자들이 훨씬 친숙하게 이용할 수 있을 것으로 기대됩니다.
혹시, 한국어 자동번역을 해주는 확장프로그램인 지니 프롬프트를 비롯해 chatGPT용 다양한 확장 프로그램이 궁금하시다면 이전 포스트를 참고해 주시기 바랍니다.
5. GPT-4에는 "개성"이 존재합니다.
<조향성 Steerability>은 인공지능에서 흥미로운 개념으로, 상황에 따라 행동을 변경할 수 있는 능력을 나타냅니다. 이것은 chatGPT와 대화할 때 공감능력이 뛰어난 리스너 역할을 맡길 때 유용하게 사용할 수도 있고, chatGPT가 나쁜 맘을 먹었거나 우울하다고 확신하였을 때는 위험하다고 느낄 수도 있습니다.
GPT-4는 GPT-3.5보다 조향성을 더 기본적으로 통합하며, 사용자는 고정되어 있는 chatGPT의 장황함, 어조, 스타일을 가진 기존 성격을 사용자의 필요에 더 적합한 성격으로 바꿀 수 있습니다. 연구팀에서는 chatGPT에게 개성을 부여하는 가장 쉬운 방법은 "범위 지정"을 해주는 것이라고 언급하였습니다.
예를 들면 챗봇에게 "TRPG에서 마스터를 맡은 것처럼 행동해라", "케이블 티비 뉴스에서 인터뷰를 하는 사람처럼 대답해라"는 식의 명령을 하면 됩니다.
마무리
GPT-4에서 달라지는 5가지를 살펴보니 어떠신가요? 어떤 기능이 제일 기대되시나요? 저는 이미지 입력 기능과 향상된 다국어 기능이 기대됩니다.
GPT-4를 직접 테스트해보신 분들은 유료서비스인 ChatGPT플러스의 개발자용 API에서 가장 먼저 이용하실 수 있습니다. 아마도 조만간 무료 데모에서도 적용될 것으로 보이니 인내심이 있으신 분들은 조금 기다려 보시는 것도 좋을 것 같습니다.
'테크&IT 이슈' 카테고리의 다른 글
실험실에서 만드는 고기? 배양육에 대한 모든 것 (0) | 2023.04.12 |
---|---|
기술이 바꾸는 교실 풍경, 에듀테크(EdTech)에 관한 모든 것 (0) | 2023.03.30 |
영화계 핫 이슈, 디에이징(De-aging) 기술에 대한 모든 것 (0) | 2023.03.09 |
구글 I/O 5월 10일 마운틴 뷰에서 개최, 등록 방법 안내 (0) | 2023.03.08 |
일론 머스크, 이달 말 트위터 암호화 DM 기능 출시 발표 (0) | 2023.03.07 |
댓글