ChatGPT는 정보의 합성과 압축이다

ChatGPT는 정보의 합성과 압축이다

2023. 2. 16. 21:00ㆍIssues & Thoughts/Improvisation

2022년 말 세상에 공개된 ChatGPT가 2023년 초 여전히 언론의 중심을 장식하고 있다. 일부 사람들은 ChatGPT에 대해 마치 뭐든지 할 수 있는 마법의 도구라며 열광적이다. 혹자는 구글의 검색엔진을 대체할 것이라 말하고, 또 혹자는 개발자를 비롯한 현존하는 직업들의 태반이 조만간 사라질 것이라 전망한다. 정말 그럴까? ChatGPT는 정확히 어떤 존재일까? 이번 글을 통해 필자가 ChatGPT 출시 직후부터 약 3달간 사용하며 느낀 점과 배운 점을, 과연 ChatGPT가 무엇인지를, 디지털 사진에 빗대어 소개해보고자 한다.

1. 디지털 사진의 원리

컴퓨터가 발전하면서 세상의 모든 정보를 0과 1로 표현하기 위한 여정은 계속되고 있다. 글자를 넘어 사진은 물론, 동영상을 표현하고 최근에는 디지털 트윈과 VR/AR을 통해 물리세계를 복사한 4차원 공간을 구현하기 위해 분투 중이다. 글자를 0과 1로 표현하는 것은 상상하기 어렵지 않다. 예를 들어 ”0001“을 ”a”, “0011”을 “b”라는 식으로 인류 공통의 약속을 정하면 된다. 그렇다면 사진은 어떨까?

사진 또한 다음처럼 0과 1로 표현가능하다. 다만 1차원의 약속이 아닌 2차원의 약속일 뿐이다. 다만 이 사진의 경우 문제가 있다. 지극히 단순 흑백이라는 점이다. 농도를 표현하기 위해 한 칸 한 칸에 0과 1 대신 3까지의 숫자를 집어넣어보자.

그렇다면 칼라 사진은 어떻게 표현할까? 색은 빨강, 초록, 파랑 삼원색으로 구성된다. 때문에 다음처럼 적녹청 2차원배열의 조합으로 표현할 수 있겠다.

보통 디지털 사진을 전송하거나 할 때 원본 그대로 사용하지 않는다. 큰 용량을 줄여 압축을 한다. 압축은 다음처럼 인접한 4칸의 정사각형을 하나로 합치고 평균값의 정보만 남기는 식으로 가능하다. (eg. (1 + 1 + 0 + 0) / 4 = 2 / 4 = 0.5)

본 예시에서는 원본 사진과 압축 사진간의 달라진 점이 제법 보이지만 실제로 디지털 사진을 구성하는 배열의 크기가 어마어마하게 크다면 인간의 눈으로는 원본과 구분하기 어렵다.

그 외 디지털 사진을 압축하는 방식에는 여러 가지가 존재한다.

그 중 JPEG 확장자 파일의 압축에 대해 보다 자세한 원리를 이해하고 싶다면 다음 글을 참고해보자.

54- The JPEG compression algorithm

2. 정보의 합성과 압축

ChatGPT는 마치 3차원 디지털 사진을 압축하듯이 웹상의 텍스트 정보를 합성하고 압축하는 도구다. 물론 이는 ChatGPT가 실제로 이렇게 동작한다는 것은 아니다. 다만 필자는 이것이 ChatGPT라는 도구를 이해하는데 있어 나쁘지 않은 비유라 생각한다. 만약 ChatGPT의 실제 기술적 원리가 궁금하다면 다음 링크를 참고해 간단한 버전의 ChatGPT를 만들며 학습해보자.

Let's build GPT: from scratch, in code, spelled out.

현재 검색 엔진은 우리가 입력한 값에 대해 가장 유사한 ‘원본 사진’을 찾아서 결과로 보여준다. 즉, 인간이 만든 웹 상의 원본 정보들 중 가장 사용자가 필요로 할 것이라 예상되는 정보를 결과로 출력한다. 반면 ChatGPT는 ‘합성 및 압축된 사진’을 보여준다. 예를 들어 보자. “What is love”를 ChatGPT에서 검색했다고 해보자. 일반 웹 검색이었다면 보편적 의미에서 사랑이란 무엇인지에 관한 글, 성경에서 말하는 사랑, 사랑을 설명하기 위한 예시 사례, 심지어 노래 가사에 이르기까지 사람들이 웹에 올린 원본 정보를 보여줄 것이다. 그러나 ChatGPT는 위와 같은 정보들을 합성할 것이다. 뿐만 아니라 간결한 핵심 포인트를 Output으로 출력하기 위해 합성된 글을 압축할 것이다.

결과적으로 ChatGPT는 다음과 같은 답변을 줄 것이며 사용자는 방대한 양의 원본 정보를 살펴볼 필요없이 핵심을 쉽고 빠르게 얻을 수 있게 된다.

3. 근사값

이처럼 ChatGPT는 정보를 합성하고 압축한다. 이는 사용자로 하여금 쉽고 빠르게 원하는 정보를 얻을 수 있게 하는 장점이 있지만, 조금만 생각해보면 ChatGPT의 답변이 부정확할 수 있음을 쉽게 알 수 있다. ChatGPT의 답변은 근사치다. 세상에는 근사치로 해결가능한 문제가 있는가 하면, 고해상도의 정확한 값이 필요한 상황도 존재한다. 그리고 바로 이러한 상황에서는 ChatGPT의 답변을 걸러 들어야할 필요가 있다. 다시 말해 고화질 사진은, 즉 깊고 정확한 해상도의 정보는 사용자가 수고를 들여 직접 찾아야한다. 특히 ChatGPT의 신뢰성은 정답이 정해져있지 않은 추상적인 질문이나 아직 세상에 나타난지 얼마 안된 데이터가 부족한 것들에 대한 질문 시 급격히 낮아진다. 우리에게 교모하고 그럴 듯하게 들리도록 답변을 하지만, 사실 이는 우리를 더욱 미로 한가운데로 몰아넣는다. 예를 들어 2019년 100% 출자로 설립된 신한금융지주회사의 자회사인 신한AI에 관한 질문에 대한 답변으로 ChatGPT는 매우 그럴듯 하지만 전혀 엉뚱한 답을 내놓았다.

4. ChatGPT 활용 방법

그렇다면 우리는 ChatGPT를 어떻게 활용해야할까?

우선 ChatGPT가 만능 백과사전이 아님을 인지해야한다. 다음으로 내가 얻고자하는 정보가 지나치게 최신 정보인지, 내게 배경지식이 전무한 분야의 정보인지, 사랑이 무엇인가와 같이 추상적 가치 판단을 하는 문제인지 생각해봐야한다. 만약 이 중 하나라도 yes라면 ChatGPT 사용을 재고하는게 좋다. 만약 위 관문을 통과했다면, 우리는 얻고자하는 정보를 1차적으로 빠르게 검색하는데 ChatGPT를 유용하게 사용할 수 있다. 이때 질문은 최대한 세세하고 정확하게 해야한다. 다음으로 필요할 경우 ChatGPT의 답변을 바탕으로 키워드 검색을 통해 깊게 searching하고 학습을 진행하자.

ChatGPT를 기피하고 개인이나 조직의 기술 격차를 심화시키는 행위도 문제가 있지만, ChatGPT를 맹신하는 것도 분명 문제가 있다. 우리는 ChatGPT를 어디까지나 보조도구로써 사용해야한다. 인공지능의 답변을 맹신하여 이를 인터넷에 공유하고, 이것을 또다시 인공지능이 학습하고, 이를 바탕으로 더 정답과 멀어진 답변을 내놓고 하는 난감한 상황이 벌어져서는 안될 것이다. 마치 디지털 사진이 수차례 압축되고 전송되는 과정에서 디지털 풍화를 겪어 화질이 저하되는 것처럼, 인공지능의 답변도 그럴 수 있음을 염두하자.

5. 마무리

이번 글을 통해 우리는 ChatGPT가 만능도구가 아님을 살펴봤다. 물론 미래에는 인공지능만으로 고해상도의 정보를 매우 손쉽게 사용자가 습득 가능한 세상이 올 수도 있다. 아니, 필자는 언젠가 확실히 그런 세상이 올 것이라 생각한다. 그러나 지금 2023년 2월에는 아직 아니다. 때문에 어디까지나 편리한 보조 도구로써 ChatGPT를 우리의 삶 속에서 활용하고, 나아가 우리가 인공지능과 더 나은 세상의 발전에 기여하는 삶을 살 수 있기를 희망한다.

더 자세히 알아보기

ChatGPT: Optimizing Language Models for Dialogue

-모든 이미지는 직접 제작, 혹은 Royalty Free-

-살아가며 느끼고 배운 점들-

-특정 집단의 의견이 아닌 개인의 의견-

이 포스팅은 쿠팡 파트너스 활동의 일환으로,

이에 따른 일정액의 수수료를 제공받습니다

'Issues & Thoughts > Improvisation' 카테고리의 다른 글

우리의 동기화, Daily Scrum (85)	2023.04.13
중요한 것은 피드백 (81)	2023.03.02
사일로 현상과 연대의식 (44)	2023.02.09
WEB3.0을 어떻게 정의할까 (2)	2023.01.12
블록체인과 기성 권력의 중앙통제 (3)	2022.12.22

Share 2 Learn