Whisper Auto Captions

자막 컨트롤(Caption Control) 이야기

BrewCoder 2026. 4. 27. 12:51

WhisperAutoCaptions 1.8.1 버전부터는 이전의 방식과 달리 자막 컨트롤(Caption Control)이란 이름으로 새롭게 후보정 기능을 제공합니다.

 

Whisper AI가 텍스트를 아무리 잘 받아 적어도, 화면에 뿌려지는 자막의 '호흡'이 맞지 않으면 시청자는 피로를 느낍니다. 

이번 1.8.1 업데이트의 핵심인 자막 컨트롤(Caption Control)은 Whisper가 생성한 자막을 기준으로, 여러분의 영상 스타일에 딱 맞게 다듬어주는 강력한 후보정 엔진입니다.

 

🎬 내 영상의 호흡에 맞춘 스마트한 분할
이번 업데이트된 자막 컨트롤은 긴 문장을 효과적으로 줄이거나, 정해진 타임라인 시간에 맞춰 자막을 나누는 데 탁월한 성능을 발휘합니다.

모델별 맞춤 전략:
- Medium 모델: 기본적으로 자막이 짧게 끊겨 나오는 경향이 있어, 별도 설정 없이도 자막 컨트롤의 결과값과 Whisper AI의 출력 내용이 비슷하게 유지되는 경우가 많습니다.
- Large V2 / V3 모델: 인식률은 매우 뛰어나지만 문장이 길게 늘어지는 특성이 있습니다. 이때 자막 컨트롤 기능을 사용하면, 가독성이 떨어지는 긴 문장을 사용자의 설정에 따라 교정해 줍니다.

🍎 Apple Semantic Engine을 활용한 4가지 모드

단순히 글자 수로만 자르는 것이 아닙니다. 애플의 최신 NLP(자연어 처리) 기술을 사용하여 문맥을 파악합니다.
- 스마트 (Smart) [적극 추천]: 문맥상 가장 자연스러운 마침표나 조사 뒤를 찾아 분할하여 시청자의 가독성을 극대화합니다.
- 타임라인 (Timeline): 지정한 고정 간격(예: 2.0s)마다 정확하게 자막을 나누어 리드미컬한 호흡을 유지합니다.
- 단어별 (Word): 트렌디한 숏폼 컨텐츠처럼 단어 단위로 짧게 쪼개어 몰입감을 높입니다.
- 표준 (Standard): Whisper AI가 출력하는 그대로 제공합니다.

 

🚀 상황별 프리셋 제공 및 사용자 커스텀 지원
작업할 때마다 일일이 수치를 조절할 필요가 없습니다. 클릭 한 번으로 최적의 설정을 불러오고, 나만의 설정을 저장할 수 있습니다.
- 숏츠(Shorts): 숏폼 컨텐츠에 최적화된 짧고 빠른 호흡 (글자 수 15자 내외).
- 표준(Standard): 브이로그나 일반 인터뷰에 가장 자연스러운 구성 (글자 수 25자 내외).
- 시네마틱(Cinematic): 영화나 감성 영상처럼 긴 문장과 여유로운 호흡이 필요할 때.
사용자 커스텀: 위 프리셋들을 기반으로 세부 수치를 조정한 후, 나만의 프리셋으로 저장하여 언제든 다시 불러올 수 있어 작업 효율이 극대화됩니다.

 

🛠️ 스마트 엔진 상세 옵션 가이드
애플의 Semantic Engine(NLP) 기술을 기반으로 자막을 더욱 정교하게 제어하는 4가지 핵심 파라미터입니다.
- 최대 글자 수 (Max Line Length):
한 자막 블록에 담길 이상적인 글자 수의 상한선입니다. 화면을 가리지 않으면서도 가독성이 가장 좋은 길이를 결정합니다.
- 최대 노출 시간 (Max Screen Time):
글자 수가 적더라도 자막이 화면에 너무 오래 머물지 않도록 강제로 다음 블록으로 넘겨주는 시간입니다. 영상의 전체적인 템포를 조절합니다.
- AI 분할 유연성 (AI Split Flexibility):
문맥 탐색 범위를 결정합니다. 이 값이 높을수록 AI가 더 넓은 범위를 훑으며 마침표나 조사 뒤 등 자연스러운 문장 끊기 지점을 찾아내어 '스마트'하게 분할합니다.
- 최소 글자 수 (Min Line Length):
문장 끝에 "그", "고" 같은 짧은 단어 하나만 덜렁 남는 것을 방지합니다. 자막의 시각적 균형감을 유지해 주는 '안전장치'입니다.