1. 왕립 수의 대학의 줄임
자세한 내용은 왕립수의대학 문서 참고하십시오.2. AI 음성 합성 기술
Retrieval-based Voice Conversion검색 기반 음성 변환
AI 음성 합성 기술으로 기존의 Diff-SVC와 비슷한 형태이지만 Diff-SVC는 Stable Diffusion을 이용해 음파 이미지를 만드는 방식이고 RVC는 기존의 음성데이터를 이용해 변조를 하는 방식이다.[1] 음성 변조와 비슷하다고 생각하면 될 듯하다.
모델을 만들려면 학습시키고자하는 목소리 파일이 5~10분 정도 필요하다.
다만, ov2라는 사전학습모델을 사용하면 20초~1분에 데이터셋만으로도 충분하다.
보통 해당 기술을 이용해 본인의 목소리나 본인이 좋아하는 연예인이나 애니메이션/게임 속 캐릭터의 목소리를 학습시켜 노래를 부르게 하는 경우가 많다.
그림 인공지능과 같은 논란이 있다. 저작권에 관해서는 Github 레포지토리에서 문제가 없는 데이터들로만 학습했다고 한다.
[1]
VITS 기반으로 만들어졌다.