최근 챗GPT 관련하여 많은 관심을 가지고 있어서 관련된 용어인 토큰에 대한 관심도 많은 것 같습니다.
토큰은 챗GPT가 처리하는 자료의 작은 단위인데 일반인의 경우에는 관심이 없을지 몰라도 기업들이나 개발자의 경우에는 토큰으로 과금하는 경우가 많아서 토큰의 가격에 대해서 관심이 많습니다.
토큰이 자료의 단위라고는 어느 정도 알려져있지만 그 단위가 글자수인지 byte인지 등에 대해서는 정확하게 잘 몰라서 조사해보았습니다.
챗GPT 토큰수 계산하는 방법
처음에는 토큰이 자료의 단위라고 해서 글자수나 byte 같은 단위라고 생각했습니다.
하지만 좀 더 알아보니 그게 정확히 일치는 하지 않는 것 같았습니다.
확인해보니 이 토큰의 개념은 AI 언어모델에 대해서 조금씩 다르다는 것을 알았고 우리가 쉽게 아는 단어도 AI 언어모델에 따라 다르게 계산할 수 있다는 것을 알았습니다.
예를 들어 안녕하세요라는 단어를 1개의 토큰으로 처리할 수도 있고 각각 글자당 1개씩 해서 5개의 토큰으로 처리할 수 있다고 하네요.
아마 더 많은 토큰으로 처리할 수록 자료의 자유도는 높아질 것으로 추측은 가능한 것 같습니다.
하지만 결국 일정하게 토큰수를 알 수 있는 방법은 토큰 계산기를 이용할 수 밖에 없다는 것을 알게 되었습니다.
그래서 토큰 계산기로 '안녕하세요' 토큰수를 확인해보았습니다.
토큰계산기를 통한 토큰수 실제 계산
위와 같이 안녕하세요를 입력하고 토큰수를 알아보았습니다.
6이 나오네요.
1이나 5를 예상했는데 6이 나오니 좀 당황스럽습니다.
그래서 영어로 한번 계산해보았습니다.
이번에 3이라는 숫자가 나오네요.
토큰수 면에서 한국어보다는 영어가 더 적게 나올 것이라는 것은 예상했었는데 실제로도 그렇게 나오네요.
이번에는 반갑습니다, 그리고 nice to meet you를 입력해보았습니다.
반갑습니다는 안녕하세요와 같은 6이 나왔습니다.
그럼 nice to meet you는 얼마가 나올까요?
계산해보니 4가 나왔습니다.
이건 단어마다 1개씩 토큰화를 시킨 것 같습니다.
어떤 단어는 3개의 토큰을 쓰고 어떤 단어는 1개의 토큰을 쓰는 것 같습니다.
의미변형이 작은 단어는 적은 토큰을 쓰고 변형이 다양한 단어들은 많은 토큰을 쓴다고 유추할 수 있을 것 같긴한데 아직은 확실하지는 않습니다.
좀 더 토큰계산기로 확인해봐야 알 것 같네요.
아래에 토큰계산기 링크가 있습니다.
encoding에 무슨 설정하는 것도 있는데 이것에 따라서도 조금씩 계산이 달라지긴 하는 것 같지만 이것의 의미가 정확히 무엇인지 모르기 때문에 좀 더 공부해봐야 알 것 같네요.
'IT 컴퓨터상식' 카테고리의 다른 글
챗GPT 토큰계산기 토큰량 어느정도인지 확인하는 방법 (0) | 2024.01.30 |
---|---|
PPT로 간단히 그림 배경 제거하기 (누끼따기) (1) | 2024.01.30 |
GPTs 수익 인증 현황 확인 (0) | 2024.01.27 |
챗GPT 플러그인 스토어 안보임 없어졌나? (0) | 2024.01.26 |
챗GPT 유료 무료 기능 차이 (0) | 2024.01.24 |