Whisper Auto Captions

AI가 음성인식을 잘 하는 팁(feat Final Cut Pro)

BrewCoder 2024. 11. 15. 10:13

음성AI 에서 해당 언어를 학습시킬 때 가장 기본이고 기준이 되는 환경이라면

아무래도 TV 에서 아나운서 발음과 이에 해당되는 스크립트일 것입니다.

 

Open AI 가 이 기준을 가지고 인식하고 텍스화 하기 떄문에 잡음이 어느정도 있는 외부 환경에서 인식이 많이 떨어질 수 있습니다.

 

이러한 단점을 만회하기 위해 다양한 환경의 목소리 데이터들을 채집, 학습시켜 인식률 향상하여 유료화 서비스를 진행하는 기업들도 있습니다.

 

우선은 Whisper Auto Caption 에서 음성인식을 좀 더 잘하기 위한 툴팁을 하나 드려볼까합니다.

 

AI가 처리한 데이터를 AI 가 더 나은 결과를 보여주겠지요?

 

 

 

파이널 컷 프로에서 위와 같이 Voice Isolation 옵션을 주고 영상이나 음성을 내보내기 하셔요

그 이후 Whisper Auto Caption 에서 파일을 불러 실행을 하시면 되셔요.

 

 

추가적으로 음악파일에서 음성을 추출하는 경우에는 아래 설정처럼 보컬강조 옵션을 키고 파이널 컷 프로에서 내보내기 한 후 음성인식을 시켜보면 좋습니다.