1. 도구 1개짜리 단가표가 거짓말인 이유
요즘 "AI 콘텐츠 비용"을 다루는 글 대부분은 도구 하나의 단가 — GPT-5 입력 100만 토큰당 $5, Sora 초당 $0.75 같은 — 만 인용합니다. 그런데 실제 콘텐츠는 도구 하나로 만들어지지 않습니다. 60초 YouTube Shorts 한 편은 워크플로우입니다. LLM 이 스크립트를 쓰고, 영상 모델이 화면을 만들고, TTS 가 더빙하고, 이미지 모델이 썸네일을 뽑고, 번역 모델이 두세 개 언어로 자막을 만듭니다. 최종 청구서는 다섯 줄, 다섯 가지 다른 가격 단위(100만 토큰당·초당·100만 글자당·이미지당·또 100만 글자당) 의 합산입니다. "GPT-5 는 $5", "Sora 는 $0.75" 같은 단가는 그 자체로는 어떤 결정도 도와주지 않습니다. 크리에이터·마케터에게 필요한 건 워크플로우 총합과 단계별 내역 이고, 이 사이트가 정확히 그걸 계산합니다.
본 계산기는 다섯 가지 표준 시나리오 — Shorts, 광고 스팟, 온라인 강의 1화, 오디오 팟캐스트, SEO 블로그 글 + 이미지 — 를 결정적 단계 그래프로 정의해 두었습니다. 각 단계마다 저가·중급·고급 품질 등급별 기본 모델이 자동 픽되며, 단계별 모델을 따로 바꿔도 합계가 실시간으로 갱신됩니다. 입력값은 서버로 전송되지 않고 브라우저 localStorage 에만 저장되며, base64 URL 토큰으로 공유할 수 있습니다.
2. 다섯 개 비용 카테고리 풀이
2.1 스크립트 LLM
모든 워크플로우의 시작은 텍스트입니다. Shorts 스크립트, 광고 카피, 강의 원고, 블로그 초안 모두 LLM 에서 나옵니다. 프런티어 LLM 들은 입력·출력 토큰을 따로 과금하며 출력 가격이 입력의 4~5배입니다. 60초 Shorts 의 스크립트는 작아서 (초당 2.2 단어 × 60초 × 1.4 토큰/단어 ≈ 220 출력 토큰 + 600 시스템 토큰) Claude Opus 4.7 의 출력 100만 토큰당 $75 라는 비싼 단가에도 $0.02 가 안 됩니다. 반대로 20분 팟캐스트 스크립트는 출력만 6,000+ 토큰이라 프리미엄 등급에서 $0.40 를 넘을 수 있습니다. 계산기는 길이 입력에서 출력 토큰을 자동 추정 (2.2 단어/초 × 1.4 토큰/단어) 합니다.
2.2 AI 영상 생성
광고·Shorts 예산을 압도하는 항목입니다. 2026-05 공시 기준 Kling 2 가 1080p 초당 $0.20 로 가장 싸고, Runway Gen-3 $0.40, Veo 2 $0.50, Sora Pro 티어 $0.75 입니다. 계산기는 선택한 모델의 초당 단가에 길이를 곱하며, 각 모델이 지원하는 단일 샷 최대 길이 (Veo 2 = 8초, Sora = 20초) 는 메모로만 표시합니다. 더 긴 영상은 여러 샷을 잇는 구조라 산수 자체는 같습니다. 홈 화면 "최저가 조합" 패널이 시나리오별 가장 싼 영상 모델을 자동으로 노출해 바닥 가격을 보여줍니다.
2.3 TTS 음성 더빙
음성 비용은 글자 수가 결정하며, 한국어·영어 모두 자연스러운 속도로 60초가 약 750자 입니다. ElevenLabs 가 효과적 100만 자당 $165 (Creator 플랜 환산) 로 가장 비싸지만 광고·스폰서드 리드에서는 그 톤이 값을 합니다. OpenAI TTS-1 standard 는 $15/100만 자로 11배 더 싸며, Google WaveNet 도 $16 수준입니다. 장시간 팟캐스트라면 ElevenLabs → OpenAI HD ($30/100만 자) 만 바꿔도 음성 비용이 30~80% 줄어듭니다. 계산기는 저가·중급· 고급으로 라벨링해 클릭 한 번에 바꿀 수 있게 했습니다.
2.4 이미지 생성 (썸네일·본문)
Shorts·강의는 썸네일 1장, 광고는 리타게팅용 키 비주얼 2장, 블로그는 헤로 + 본문 일러스트 2장 이 표준입니다. 단가는 1024×1024 기준 DALL-E 3 standard·Midjourney v6 환산·Imagen 3 가 모두 $0.04 수준으로 수렴했고, 포토리얼 썸네일은 FLUX 1.1 Pro 가 $0.05 로 약간 비쌉니다. 자체 호스팅 Stable Diffusion XL 은 GPU 비용 환산 시 $0.01 아래로도 떨어집니다. 계산기는 시나리오별 레시피대로 자동 계산합니다.
2.5 자막·카피 번역
2개 이상 언어로 발행한다면 번역도 별도 항목입니다. DeepL Pro·Google Cloud Translation v3 가 100만 자당 $20 로 품질이 가장 좋고, 훨씬 싼 대안은 GPT-4o mini 를 프롬프트 번역으로 쓰는 것으로 출력 환산 100만 자당 약 $1.20 입니다. 자막은 후편집 전제로 충분합니다. 계산기는 글자수 × (언어 수 - 1) 로 곱해 원어는 무료, 추가 로케일만 비용으로 잡습니다.
3. 실전 예: 60초 Shorts, 3개 언어 (중급 품질)
기본 Shorts 시나리오, 중급 품질, 3개 언어 (원어 + 2개 추가) 로 2026-05 가격을 그대로 돌리면: 스크립트는 GPT-4o mini 에서 $0.001 (입력 600 × $0.15/100만, 출력 220 × $0.60/ 100만), 영상은 Runway Gen-3 초당 $0.40 × 60초 = $24, 음성은 Google WaveNet 으로 750 글자 × $16/100만 ≈ $0.012, 썸네일은 Imagen 3 $0.04, 자막 번역은 GPT-4o mini 환산 $1.20/100만 × 750 × 2 ≈ $0.0018. 총합 약 $24.07 로 영상이 99% 를 차지합니다. 고급으로 올리면 Veo 2 $0.50/초 = $30, 저가로 내리면 Kling 2 $0.20/초 = $12.05 입니다.
같은 산수를 20분 팟캐스트에 돌리면 그림이 완전히 달라집니다. 영상 단계가 사라지고, 스크립트는 6,000+ 출력 토큰이라 Claude Sonnet 4.6 에서 약 $0.50, 내레이션은 ElevenLabs 에서 15,000 글자 × $165/100만 = $2.48 로 단연 가장 큰 항목입니다. 커버 아트 $0.05, 3,000 글자 쇼노트 2개 로케일 번역이 DeepL 에서 $0.12. 총 $3.20 미만 으로, "AI 팟캐스트" 가 단위 비용이 짧은 영상의 1/10 수준이라 확장성이 좋은 이유입니다.
4. 비용을 줄이는 세 가지 룰
세 가지로 최적화의 90% 가 끝납니다. 모든 LLM 단계에 출력 토큰 상한을 거세요. 출력이 입력보다 4~5배 비싸기 때문에 Opus 에서 출력이 8,000 토큰으로 폭주하면 영상 한 단계 다운그레이드로 아꼈던 돈을 전부 날립니다. 목표 품질에서 가장 싼 영상 모델을 고르세요. Kling 2 vs Veo 2 는 2.5배 차이이고 1080p 모바일 재생에서 시청자는 거의 구분 못 합니다. 그리고 후편집 가능한 자막은 싼 LLM 으로 번역하세요. GPT-4o mini 환산 $1.20/100만 자는 DeepL 대비 16배 싸고 캐주얼 콘텐츠 자막은 충분히 쓸 만합니다.
카테고리는 독립적이지 않습니다. 저질 영상에 ElevenLabs 내레이션은 낭비이고, 캐주얼 Shorts 에 Veo 2 는 과합니다. 품질 등급 슬라이더를 한 번에 움직여 다섯 단계의 정합성 있는 기본값을 잡고, 한 카테고리만 포인트로 올리고 싶을 때만 (광고는 보통 음성, 헤로 영상은 영상) 단계별로 따로 바꾸세요.
5. 주의사항과 데이터 갱신
모든 가격은 2026-05 기준 각사 공시 리스트가입니다. 엔터프라이즈 계약, 볼륨 할인, 월 구독 크레딧 (ElevenLabs·Midjourney·Runway) 은 효과적 단가를 20~40% 흔들 수 있으며, 계산기는 구독 플랜을 가능한 단위가로 환산해 두었습니다. 가장 변동성이 큰 카테고리는 영상이며, 위 5개 영상 모델 중 3개가 2025-11 ~ 2026-05 사이에 가격을 바꿨습니다. 캠페인 예산 확정 전에는 가장 큰 항목을 항상 벤더 공식 가격 페이지와 교차 확인하세요.
계산기의 가격 데이터셋은 /prices.json 에 CC0 로 공개돼 있어 자유롭게 가져가 내부 도구에 쓸 수 있습니다. 전체 가정 (초당 단어 수, 시스템 프롬프트 크기, 언어별 환산 계수) 은 푸터 링크의 소스를 참고하세요.