Whisper Auto Captions

Whisper Auto Captions 주요기능 첫번째

BrewCoder 2025. 3. 3. 14:17

Whisper Auto Captions 주요 기능을 살펴보도록 할께요.

 

현재 1.5.8 버전을 기준으로 작성이 되었고 최신 버전 다운로드는 아래 경로를 방문하시면 확인이 가능합니다.

 

https://www.youtube.com/@SangHyoukJin/community

 

Code & Coffee Breaks

어느 가상 공간의 구석진 자리까지 찾아와 주셔서 감사합니다. 여기는 간단한 프로그래밍 팁과 소소한 일상을 공유하는 작은 공간입니다.

www.youtube.com

 

 

 

Whisper Auto Captions 실행 환경은 다음과 같습니다.

- 지원기기 : 인텔 또는 애플 실리콘을 사용하는 기기
- 운영체제 : MacOS 13(Ventura) 이상

- 테스트 기기 : iMac 2019 i5, MacBook Air M1 13 
* 애플 실리콘 기종을 사용하시는 분들은 가급적이면 Mac OS 14 이상으로 업데이트한 후 사용하여 주세요.

 

 

Whisper Auto Captions를 실행하면 여러 가지 옵션이 나타나는데요. 하나씩 살펴 볼께요

 

Whisper Auto Caption 실행 첫 화면

 

 

Source File :

- 텍스트로 변환하기 위한 음성이나 영상파일을 선택하세요. 

- 영상파일은 mp4, 음성은 wav, mp3 파일이 선택가능합니다.

★ 영상파일(mp4)을 선택하는 경우에는 자동으로 프레임 레이트를 판별하여 자동으로 Frame Rate 값을 설정하여 줍니다.

 

Frame Rate:

- 영상 제작에 필요한 프레임 레이트를 선택하는 항목입니다.

★ 1.5 버전부터는 소수점을 사용하는 프레임 레이트(예를 들어 23.98, 29.97, 59.94 등)를 사용할 때
새로운 계산 방식으로 업데이트되어 기존의 불편함이 크게 개선되었습니다.

  자동생성된 자막에서 지그재그 밀림 현상이 사라졌으며 뒤로 갈수록 싱크가 안 맞는 문제도 수정이 되었습니다.

 

Model :

 - 위스퍼 A.I를 사용할때 데이터 세트를 설정하는 부분입니다.

 - Small, Medium, Large를 선택할 수 있습니다.

 - 모델이 작을수록 특정 음성을 판단할 때 빠른 결과를 보여주며 품질은 다른 모델에 비해서 떨어집니다.

 - Large 모델은 데이터 세트 용량이 큰 관계로 품질은 좋으나 그만큼 시간이 걸립니다.

★ 한국어를 선택하는 경우에는 스튜디오에서 아나운서가 읽는 뉴스 같은 환경이라면 Small 모델도 괜찮은 결과 값을 보여줍니다.
가급적이면 Medium이나 Large모델을 선택하여 주세요

★ 동일한 Whisper A.I 사용하는 어플리케이션에서는 Large 모델을 사용하는 경우에는 유료버전으로 구매해야 하는 경우가 있습니다.
제가 무료로 배포하는 Whisper Auto Caption에서는 Large 모델이 포함되어 있어서 전체 프로그램 용량이 큰 편입니다.

 

Language :

- 영상이나 음성에 있는 언어를 텍스트로 변환할 때 선택하는 부분입니다.

- 기본값은 한국어로 되어 있습니다.

★ 영상이나 음성에서 여러 개의 언어가 혼재하는 경우에는 "Auto Detect"를 선택할 수 있으며 결과는 음성 강도가 높은 언어 1개가 선택되어 나올 가능성이 높습니다.

영상이나 음성과 다르게 Language에서 선택되어 있다면 위스퍼 A.I가 해당 언어로 탐지하고 해석하여 엉뚱한 데이터가 나올 수 있습니다. 예를 들어 한국어 음성파일을 지정하고 Language에서 중국어로 선택하였다면 위스퍼 A.I에게 파일에 들어 있는 언어는 중국어 이니까 음성 인식 결과를 알려줘...와 같기 때문에 결과값이 제대로 나올 수 없습니다.

★ 모델에서 Large를 선택하여 일본어 영상이나 음성 파일을 선택한 후 Language 에서 한국어로 선택하면 번역이 되어 나오는 경우가 있습니다. 이 경우는 위스퍼 A.I가 알려지지 않은 약간의 부가적인 기능 같아 보이는데 공식적으로 지원하지 않는 사항이라는 점 말씀드립니다.

 

Translate to English :

- 영어 이외의 언어 음성을 영어로 번역하여 제공되는 기능입니다

- 영어 번역 품질은 Native Speaker가 아니어서 잘 모르겠으나 좋은 편 같아 보입니다.

★ 동시에 2개 언어 자막 생성은 되지 않기 때문에 두 가지 언어를 제공하는 경우에는 두 번에 걸쳐 자동 자막을 생성한 후 파이널 컷 프로에서 불러오기를 하면됩니다.

 

Split Length :

- 위스퍼 A.I 에게 한 번에 출력되는 최대 토큰 수를 설정하는 옵션으로 긴 문장을 배제하고 가급적으로 지정된 값 이내에 자동자막을 생성하도록 요청하는 기능입니다.

옵션 값 설명
0 위스퍼 A.I가 생성하는 자막 그대로 사용할 때 선택하는 값으로 일반적으로 자막이 길게 생성
1 한단어 단위로 자막을 생성
10-20 매우 짧은 문장, 대화체 분할에 적합
22-30 일반적인 회화체나 간단한 뉴스, 팟캐스트에서 적절
32-40 일반적인 뉴스 기사, 인터뷰, 강연
42-50 긴 문장 허용, 자연스러운 문맥 유지 가능. 문맥이 더 길게 이어지는 경우 추천
52-60 문장을 길게 유지하며 끊김을 최소화. 요약 없이 긴 강연 또는 문서 형태의 내용

 

 

FCP Title Template : 

- 파이널 컷 프로에서 사용할 수 있는 자막 템플릿을 선택 가능합니다.

이름  종류 설명
Basic FCP 기본 내장 템플릿 기본 자막 템플릿
Essential FCP 기본 내장 템플릿 Basic + 효과가 첨가된 템플릿
Custom  FCP 기본 내장 템플릿 Basic + 효과가 첨가된 템플릿
Namsieon YT 남시언님 제공 템플릿 유투버 남시언님이 제공하신 반응형 템플릿
Namsieon Vlog 남시언님 제공 템플릿 유투버 남시언님이 제공하신 반응형 템플릿

 

- Namsieon YT나 Namsieon Vlog를 선택하는 경우에 파이널 컷 프로에서 사용할 수 있도록 바로 설치합니다.

- 위 2개 파일의 설치 위치는 동영상폴더(~/Movies) -> Motion Templates -> Titles -> !Whisper Auto Caption 폴더에 설치합니다.

★ !Whisper Auto Caption 폴더에 설치된 반응형 템플릿 하나를 골라 Apple Motion을 통하여 수정하면 나만의 반응형 템플릿을 제작할 수 있습니다.

★!Whisper Auto Caption 폴더에 외부 공개가 무료인 자막 템플릿을 넣어두면 FCP Title Template에서 해당 메뉴가 나타납니다.
선택한 템플릿으로 자동자막을 생성하여 줌으로써 자막 작업이 좀 더 손쉬워집니다.

★ 외부 반응형 자막관련하여 다른 글에서 좀 더 자세하게 기술하여 보겠습니다.