처음 AI 목소리를 듣고 바로 영상을 꺼버렸던 날

 처음에는 괜찮을 줄 알았다.

어차피 사람들은
영상 분위기만 보지
목소리까지 신경 안 쓸 거라고 생각했다.

그래서 AI 음성을 처음 넣고
바로 쇼츠 하나를 만들어봤다.

문제는 업로드하고 나서였다.

이어폰으로 다시 들어보는데
갑자기 얼굴이 뜨거워졌다.

뭔가 너무 어색했다.

사람 목소리 같긴 한데
이상하게 감정이 없었다.

억지로 슬픈 척하는 느낌도 있었고
문장 끝마다 분위기가 조금씩 끊겼다.

처음에는
내가 예민한 줄 알았다.

그래서 영상 하나를 다시 반복해서 들어봤다.

그런데 들을수록 더 어색했다.

결국 업로드한 지 20분도 안 돼서
영상을 바로 삭제했다.

AI 음성 처음 넣던 날



예전에는

AI 목소리 넣으면
영상이 더 자연스러워질 줄 알았다.

직접 녹음 안 해도 되고
발음도 깔끔하고
편할 거라고 생각했다.

그래서
Google AI Studio
Supertone Play 를 계속 바꿔가면서 테스트했다.

처음에는 감정을 많이 넣었다.

슬픈 분위기면
일부러 더 천천히 읽게 하고
목소리도 무겁게 만들었다.

그런데 오히려
그게 더 부자연스러웠다.

AI가 감정을 따라하려고 할수록
사람 느낌보다 기계 느낌이 더 강해졌다.

특히 밤에 이어폰으로 들으면
어색한 부분이 더 잘 들렸다.

문장 중간 호흡도 이상했고
갑자기 단어 하나만 너무 또렷하게 들리는 순간도 있었다.

그날은 괜히
영상을 계속 다시 수정했다.

계속 수정하던 새벽 작업 공간


그 이후로 방향을 조금 바꿨다.

감정을 억지로 넣기보다
최대한 담백하게 읽는 스타일로 수정했다.

말을 잘하는 느낌보다
조용하게 혼잣말하는 분위기에 더 가깝게 바꿨다.

오히려 그게 영상 분위기랑 더 자연스럽게 어울렸다.

대본도 같이 바꿨다.

예전에는:
“너무 힘든 하루였습니다.”

이런 식으로 썼는데
지금은:

“오늘은 이상하게 더 조용했다.”

처럼 짧게 끊고 있다.

확실히 이런 방식이
AI 목소리랑 더 잘 맞았다.

쇼츠는 생각보다
사람들이 금방 이탈했다.

특히 목소리가 어색하면
영상 분위기가 아무리 좋아도 바로 넘겨지는 느낌이었다.

그래서 요즘은:

  • 목소리 톤
  • 말 속도
  • 문장 길이

이 세 가지를 계속 수정하고 있다.

자막 수정하면서 느낀 점


자막도 같이 바꾸기 시작했다.

AI 목소리가 완벽하지 않다 보니까
자막 분위기가 더 중요해졌다.

특히:

  • 한 줄이 너무 길면
  • 감정 표현이 과하면
  • 문장이 설명처럼 느껴지면

바로 AI 느낌이 강해졌다.

그래서 지금은:

  • 짧게 끊고
  • 한 화면 한 문장
  • 최대한 담백하게

맞추고 있다.

며칠 전에는
댓글이 하나 달렸다.

“목소리 분위기 좋네요.”

짧은 댓글이었는데
그 댓글 보고 처음으로 방향이 조금 맞고 있다는 생각이 들었다.

아직 조회수가 많이 나오는 건 아니다.

잘 되고 있다고 말하기도 어렵다.

그래도 예전처럼
영상 올리고 바로 삭제하는 일은 조금 줄었다.

요즘은 완벽하게 만들려고 하기보다
일단 하나라도 끝까지 만드는 쪽으로 바뀌고 있다.

오늘도 조회수는 많지 않았지만
그래도 하나는 더 올렸다.


댓글

이 블로그의 인기 게시물

AI 영상 제작 퀄리티 어디까지 올라왔을까 직접 사용하면서 느낀 점