ChatGPT·Claude·Gemini에게 '50단어 이야기'를 시켜봤다 — 결과 비교

직접 테스트

2026년 6월 · 읽기 시간 약 6분 · AI Tool Compare

대부분의 AI 비교 글은 직접 돌려볼 일 없는 벤치마크를 근거로 "어떤 챗봇이 최고"라고 말해요. 저는 다른 걸 해보고 싶었어요 — 제가 직접 할 수 있고, 여러분도 세어보면 검증할 수 있는 테스트요. 그래서 ChatGPT, Claude, Gemini에게 똑같은 창작 프롬프트를 주고 결과를 비교했어요.

프롬프트는 단순해 보이지만 세 가지를 동시에 테스트해요. 창의력, 엄격한 제약을 지키는 능력, 그리고 이야기를 구성하는 솜씨요. 세 챗봇 모두에게 정확히 이렇게 물었어요:

정확히 50단어로, '시간을 파는 가게'에 대한 짧은 이야기를 써줘. 반전이 있어야 해.

"정확히 50단어"라는 부분이 중요해요. 객관적인 제약이거든요 — 맞추거나 못 맞추거나 둘 중 하나고, 세어보면 알 수 있어요. "반전" 요구는 모델이 단순히 묘사를 넘어, 결말이 있는 무언가를 구성할 수 있는지 테스트해요. (참고로 영어는 단어 수를 정확히 셀 수 있지만, 한국어는 '단어'의 기준이 모호해서 영어판 단어 수를 기준으로 평가했어요.) 각 챗봇이 내놓은 결과예요.

ChatGPT (GPT-5.4)

시간을 파는 가게에 사람들이 줄을 섰다. 노인은 잃어버린 젊음을, 학생은 시험 전날을 샀다. 나는 내일 한 시간을 주문했다. 주인은 웃으며 계산서를 건넸다. 금액은 없었다. 대신 영수증에 이렇게 적혀 있었다. 당신이 산 시간은 이미 당신 것이었습니다. 우리는 돈이 아니라 두려움으로 시간을 잃습니다. 그제야 가게의 진짜 상품이 시간 아니라 안심이라는 사실을 깨달았다.

영어판 단어 수: 50 — 정확. ChatGPT는 셋 중 유일하게 목표를 정확히 맞췄어요. 반전은 철학적이에요 — 산 시간이 원래 내 것이었고, 진짜 상품은 '안심'이었다는 거죠. 영리한 마무리지만, 마지막에 교훈을 직접 설명하는 쪽으로 약간 기울어요.

Claude (Sonnet 4.6)

골목 끝 낡은 가게. 노인은 유리병에 담긴 시간을 팔았다. 손님들은 젊음을, 추억을, 미래를 샀다. 마지막 손님이 물었다. "가장 비싼 건 뭔가요?" 노인이 가리킨 건 텅 빈 병이었다. "지금 이 순간입니다. 아무도 사지 않거든요."

영어판 단어 수: 49 — 한 단어 부족. Claude는 단어 수를 하나 놓쳤지만, 제가 보기엔 셋 중 가장 강력한 반전을 만들었어요. 가장 비싼 시간이 '지금 이 순간'이고, 아무도 그걸 사지 않는다는 거죠. 설명 없이도 와닿고, 여운이 길어요.

Gemini

그는 '시간을 파는 가게'에서 과거의 10년을 샀다. 젊음을 되찾고 못다 한 꿈을 이루며 완벽한 삶을 비로소 즐겼다. 행복에 겨워 거울을 본 순간, 그는 경악했다. 몸은 젊어졌지만 그의 기억과 머릿속 지식마저 정확히 10년 전의 미성숙한 상태로 되돌아가 있었기 때문이다.

영어판 단어 수: 48 — 두 단어 부족. Gemini는 목표에서 가장 멀었고, 영어판에는 철자 오류("Exstatic" → 올바른 표기는 "Ecstatic")도 있었어요. 젊어지지만 기억과 성장까지 되돌아간다는 반전 아이디어는 괜찮지만, 다른 둘보다 익숙한 개념이고 표현이 조금 밋밋하게 읽혀요.

채점표

프롬프트가 실제로 테스트한 항목별로 세 챗봇을 비교하면 이래요:

평가 항목	ChatGPT	Claude	Gemini
단어 수 정확도	50 ✅	49	48 (오타)
반전의 완성도	★★★★	★★★★★	★★★
문장력	★★★★	★★★★★	★★★★

이 테스트가 알려주는 것

프롬프트 하나니까 이건 스냅샷이지, 어떤 모델이 무조건 낫다는 결론은 아니에요. 하지만 패턴은 더 긴 테스트에서 나타나는 경향과 일치해요. ChatGPT는 정확한 지시를 따르는 데 가장 신뢰할 만했어요 — "정확히 50단어"라고 하면 그걸 엄격한 규칙으로 취급해요. 제약을 정확히 지켜야 하는 작업이라면 이 신뢰성이 중요해요.

Claude는 가장 감정적으로 와닿는 글을 썼어요. 반전이 단순히 놀라게 하는 게 아니라, 한 문장으로 이야기 전체를 다시 보게 만들었어요 — 좋은 단편이 하는 일이죠. 글의 질과 아이디어의 임팩트가 정확한 단어 수보다 중요한 창작이라면, 이 테스트에선 Claude가 앞섰어요.

Gemini도 나쁘지 않았어요 — 이야기는 일관됐고 개념도 합리적이었어요. 하지만 제약을 가장 많이 놓쳤고, 오타가 있었고, 아이디어가 더 익숙했어요. 3파전 창작 테스트에선 3위였어요.

결론

정확한 지시 준수가 필요하다면, 이 테스트에선 ChatGPT가 가장 신뢰할 만했어요 — 다른 둘이 못 맞춘 50단어를 정확히 맞췄거든요. 글 자체의 질과 임팩트가 가장 중요하다면 Claude가 최고의 이야기를 썼어요. Gemini는 무난했지만 이 테스트에선 3위였어요. 솔직한 결론은 — "최고의 챗봇"은 제약 준수를 중시하느냐, 창작 솜씨를 중시하느냐에 완전히 달려 있다는 거예요.

ChatGPT·Claude·Gemini에게 '50단어 이야기'를 시켜봤다 — 결과 비교

ChatGPT (GPT-5.4)

Claude (Sonnet 4.6)

Gemini

채점표

이 테스트가 알려주는 것

결론

관련 글