Whisper Auto Captions

Whisper Auto Captions 주요기능 두번째

BrewCoder 2025. 3. 3. 16:58

이번에는 Whisper Auto Captions가 생성한 자동자막의 내용을 확인해 볼게요.

 

설명하는 버전은 1.5.8 버전으로 아래의 경로에서 최신 버전을 확인하고 다운로드할 수 있어요.

 

https://www.youtube.com/@SangHyoukJin/community

 

Code & Coffee Breaks

어느 가상 공간의 구석진 자리까지 찾아와 주셔서 감사합니다. 여기는 간단한 프로그래밍 팁과 소소한 일상을 공유하는 작은 공간입니다.

www.youtube.com

 

 

Whisper Auto Caption 자동 자막 생성 결과 화면

 

 

지정한 영상이나 음성파일에서 위스퍼 A.I가 음성인식을 하고 자막을 만들면 프로그램에서 이를 받아와 화면에 보여줍니다.

프로그램 성능 최적화를 위해 영상이나 음성이 긴 경우 10분 단위로 음성 인식을 진행합니다.

Batch 항목에서 진행 결과를 알 수 있어요.

음성인식이 전부 완료가 되면 하단의 버튼들이 클릭할 수 있도록 색상이 변경되어요.

★ SRT 나 FCPXML 파일을 내려받기를 하면 현재 사용하는 맥 시스템에서 다운로드폴더(~/Downloads)에 저장 되요.

파일 이름 형식은 확장자 SRT 및 FCPXML이며  입력한 파일명_실행날짜시간시분초.확장자 형식으로 되어 있어요.

 

Download .srt file

- 위스퍼 A.I가 음성 인식을 끝내고 자동으로 자막 파일(srt)을 1차로 생성하면 후처리 기능을 통해 2차로 파일의 내용을 분석하고
정리한 파일을 내려받을 수 있어요

 

Download .fcpxml file

- FCP Title Template 에서 지정한 템플릿의 세부 정보를 확인하고 파이널 컷 프로에서 바로 불러올 수 있도록 자막 파일을 만들어요.

- 기본적으로 후 처리된 SRT 파일의 내용으로 FCPXML 파일을 변환합니다.

-  파이널 컷 프로에서 제공하는 기본 자막 템플릿 이외에 사용자가 추가로 제작한 템플릿을 사용할 수 있어서 별도의 자막 작업이 최소화할 수 있도록 내부적으로 많은 개선 작업을 진행하고 있어요.

 

Preview srt file

- 후처리가 완료된 SRT 파일을 바로 보여줍니다.

- 후처리가 된 SRT 파일을 명시하기 위해 순번  시작시간-종료시간 (Duration) 내용 형태로 보여줍니다.

 

Open In Final Cut Pro :

-  파이널 컷 프로를 호출하여 자동생성한 자막을 바로 불러오도록 합니다.

 

★ 후처리 기능 이야기

- Whisper Auto Caption 초기 버전에는 후처리 기능이 없었어요

- 많은분들이 위스퍼 A.I가 생성한 특수한 형태의 자막에 불편함이 있어 오히려 자동 자막 작업이 더 큰일이 될 것 같았어요.

 

- 위스퍼 A.I에서 사용되는 모델 (Small. Medium, Large)의 데이터들은 스튜디오 환경에서 아나운서가 또박또박 읽어주는 뉴스 데이터가 기본으로 훈련이 되어 있어요. 그래서 Youtube 에서 정보성 채널이나 토크 같은 스튜디오와 비슷한 환경이라면 음성인식이 괜찮은 편입니다. 그러나 외부 환경에 소음이나 잡음이 있는 환경이라면 특히 여행 브이로그, 야외시장 등이라면 음성인식이 많이 떨어집니다.

 

- 이러한 결과 위스퍼 A.I가 자막에 그 흔적을 남겨놓아요.

- 사람 목소리인지 아닌지 소음인지 판단 경계가 모호할 때 동일한 자막을 계속 생성하던가

- 알 수 없는 기호를 자막에 포함하던가

- (이상 MBC 000 기자입니다)와 같은 엉뚱한 자막을 마지막에 붙이기도해요

 

그동안 다양한 케이스를 살펴보아 후처리 기능을 하나하나씩 도입하게 되요

- 위스퍼 A.I가 엉뚱한 인토딩(기본값 UTF-8)으로 결과를 줄 때 제대로 UTF-8 처리해요

- 동일한 자막 문구가 연속하여 나오는 경우 3개 이상인 경우 1개만 남겨두어요. 이것은 음성인식을 제대로 못 했다는 표시이기도 해요

- 쉼표(,) 마침표(.) 따옴표(")가 있는 경우에 많은분들이 불편해 하셔서 자동으로 자막에서 삭제를 해 버려요. 

- 위스퍼 A.I가 SRT 파일을 만들때 시작시간-종료시간을 기록할때 지속시간(Duration)이 0인 경우가 있어요.

이를 파이널 컷 프로에서 불러오면 오류가 있다고 알람 팝업이 떠요. 이를 방지하고자 Duration 이 0인 경우에 SKIP을 해요

- 기타 특수기호 처리나 빈 자막, 자막에 기호만 달랑 있는 경우등 케이스별로 계속 기능을 보강하고 있어요.

 

 

감사합니다.