이 앱을 사용하면 팟캐스트 목적으로 자신의 목소리를 딥페이크할 수 있습니다.

Descript의 Overdub은 사용자의 음성을 기반으로 새로운 단어나 구문을 합성할 수 있습니다. 회사는 남용이 사실상 불가능하다고 말합니다.

이 앱을 사용하면 팟캐스트 목적으로 자신의 목소리를 딥페이크할 수 있습니다.

이제 지니는 딥페이크(사람의 가짜 비디오 또는 오디오를 생성하는 AI 기술)의 병에서 벗어났습니다. 설명 좋은 목적으로 사용하는 것입니다.

팟캐스트 제작 스타트업은 사람 목소리의 오디오 샘플을 사용하여 새로운 단어나 구문을 생성할 수 있는 Overdub이라는 기능에 대한 비공개 베타 테스트를 시작했습니다. Descript는 새로운 기능을 테스트하는 데 도움이 될 팟캐스터, 유튜버, 오디오북 제작자 및 기타 오디오 전문가를 찾고 있습니다.

Descript의 CEO인 Andrew Mason은 '여기의 아이디어는 사람들이 녹음 부스로 돌아가는 시간을 절약하기 위한 것입니다. 녹음을 하는 경우 매우 고통스러운 일입니다.'라고 말합니다. 이것은 사람들이 일반적으로 정말 좋고 유용하게 들리는 편집 수정을 즉석에서 수행할 수 있는 기회를 제공합니다.



오디오 입력

10여 년 전에 Groupon을 공동 설립한 Mason은 Descript라는 이전 스타트업에서 파생된 Descript라는 오디오 투어 앱인 Detour를 2017년에 만들었습니다. 오디오 투어를 만드는 과정에서 Detour는 편집자가 음성을 텍스트로 변환하는 스크립트를 편집하여 오디오를 수정할 수 있는 자체 도구를 구축했습니다. 예를 들어, 스크립트에서 엉뚱한 단어나 뒤죽박죽된 문장을 삭제하면 오디오 녹음에서도 사라집니다. 이것은 현재 Descript의 Windows 및 Mac 소프트웨어의 주요 응용 프로그램인 팟캐스트 편집에 매우 유용한 것으로 판명되었습니다.

Overdub은 오디오 개념에 대한 Descript의 워드 프로세서에서 가장 큰 누락 부분을 해결하여 사용자가 기존 단어를 삭제하거나 섞는 것 외에도 새로운 단어를 생성할 수 있도록 합니다. 데모에서 Mason은 성우의 기존 스크립트를 입력하여 그녀의 목소리와 일치하는 새로운 오디오를 합성하는 방법을 보여주었습니다. 한 단어나 짧은 문구로 제한하면 실제처럼 들립니다.

Mason은 말을 생성할 뿐만 아니라 이전과 이후에 나온 오디오 사이의 음조 연결을 시도하는 방식으로 작업을 수행할 것이라고 말합니다.

Overdub 기능 뒤에는 Lyrebird라는 또 다른 신생 기업이 있습니다. 이 스타트업은 현재 Descript가 AI 연구 팀으로 미공개 금액으로 인수하고 청구하고 있습니다. 지금까지 Lyrebird는 웹사이트의 도구를 사용하여 사람들이 자신의 목소리를 복제할 수 있도록 했습니다. 이 프로세스에는 Lyrebird가 AI 모델을 훈련할 수 있도록 일련의 무작위 문장을 녹음하는 작업이 포함되었으며 몇 분 밖에 걸리지 않았습니다. Lyrebird가 오디오 합성 기능을 Descript로 접으면 해당 도구가 종료됩니다.

그러한 기술이 사악한 목적으로 사용될 수 있는 다양한 방법을 상상할 수 있습니다. 그러나 Mason은 Lyrebird의 설정 프로세스가 본질적으로 나쁜 배우가 다른 사람의 목소리를 위조하는 것을 방지한다고 말합니다. 사용자가 임의의 문장을 발화해야 하고 해당 발화는 Lyrebird가 처리할 수 있도록 녹취록과 일치해야 하기 때문에 샘플링되는 사람은 누구나 자신이 참여하고 있음을 알아야 합니다.

아주 간단한 작은 일이지만 곰곰이 생각해보면 이 문제를 해결하기 위해 할 수 있는 일은 아무것도 없다고 그는 말합니다.

진행중인 작업

인상적인 데모를 만들긴 했지만 Descript의 음성 생성에는 여전히 한계가 있습니다.

한 가지 예로, Descript는 성우의 특별 허가를 받아 시연을 위해 AI 모델을 훈련하는 데 몇 시간의 오디오를 사용했습니다. Mason은 Descript가 Overdub에 얼마나 많은 오디오가 필요한지 여전히 파악하고 있지만 Lyrebird가 데모 사이트에서 요구하는 몇 분 정도의 오디오가 필요하다는 점을 인정한다고 말했습니다.

이것이 Descript가 오디오 전문가를 위한 비공개 베타로 시작하는 이유를 설명합니다. 좋은 음성 모델에 임의의 음성 샘플을 발화하는 마라톤 세션이 필요하다면 일상적으로 녹음 스튜디오에서 몇 시간을 보내는 사람들에게만 의미가 있습니다.

[스크린샷: 설명]

우리가 목표로 삼는 고객 유형은 자체 팟캐스트를 가지고 있거나 음성 오디오 작업을 많이 하고 오디오 임계값에 도달하는 것이 실제로 문제가 되지 않는 사람들이라고 Mason은 말합니다.

또한 몇 시간의 샘플 오디오를 사용하더라도 몇 단어 이상을 함께 연결해야 하는 경우 Descript의 음성 합성이 더욱 두드러집니다. 예를 들어 내가 들었던 데모에서 복제 오디오는 더 긴 합성 문구의 일부일 때 단어 doll의 중간에서 더듬거렸습니다. 현재로서는 이 기술은 전체 팟캐스트는 고사하고 전체 문장을 생성하는 데 유용하지 않습니다.

[스크린샷: 설명]

시간이 지남에 따라 변경될 것으로 예상하지만 현재 우리가 집중하고 있는 사용 사례는 매우 일반적인 이러한 작은 편집 수정이라고 Mason은 말합니다.

Descript는 Overdub을 얼마나 오랫동안 비공개로 유지할 것인지 또는 베타 테스트를 얼마나 광범위하게 실행할 것인지 말하지 않습니다. 그러나 단기적으로는 소프트웨어 전체에 대한 관심을 불러일으키는 또 다른 목적을 제공할 수 있습니다. Overdub의 비공개 베타는 모든 사용자를 위한 대규모 Descript 업데이트의 일부로, 멀티트랙 편집과 인터넷을 통한 그룹 녹음 세션 생성 및 편집 기능이 추가되었습니다. 기술적으로 버전 3.0이지만 Mason은 이를 Descript의 첫 번째 주요 릴리스로 생각합니다.

Descript에서 팟캐스트 수프를 만들 수 있는 것은 이번이 처음이라고 그는 말합니다.

앱을 추가로 구축하기 위해 Descript는 Andreessen Horowitz 및 Redpoint로부터 1,500만 달러를 모금했으며 포스트 프로덕션 효과 및 팟캐스트 플랫폼에 대한 원클릭 퍼블리싱과 같은 새로운 편집 기능을 작업하고 있습니다.

이러한 추가 기능은 Overdub만큼 기술적으로 인상적이지 않을 수 있지만 워드 프로세싱의 맞춤법 검사기만큼 팟캐스트 제작에 필수적입니다. AI로 자신의 목소리를 복제하는 것과 비교하면 덜 불안할 수도 있습니다.