Google Colab ile Yapay Zeka Ses Klonlama | Cover Şarkılar Üretme

Enistein

Kıdemli Üye
16 Eyl 2012
2,221
1,218
Amsterdam
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.


Ardından bi altında yer alan dosya yükleme kısmına eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.


Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya 200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.

Eğitim tamamlandıktan sonra Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)


Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
 

Ç1nk0

Üye
6 Tem 2023
77
52
Son dönemlerde popülerliği artmış bir yapay zeka teknolojisiydi bu, foruma konu açılması güzel olmuş :) Elinize sağlık hocam..
 

Grimner

Adanmış Üye
28 Mar 2020
6,309
4,764
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Elinize sağlık hocam. Bir yandan çok güzel bir yandan çok kötü bir teknoloji. Tahminen yararından çok zararı olacaktır.
 

'Anka

Basın&Medya Ekibi Kıdemli
8 Eyl 2021
3,347
2,523
Eline sağlık. Gayet başarılı bir konu olmuş.
 

gostking

Katılımcı Üye
29 Nis 2020
358
685
Vatan
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Elinize sağlık hocam güzel anlatım olmuş
 

Phobos'

Uzman üye
22 Nis 2022
1,744
1,365
Yaptıktan sonra YT' ye yükleyin, şuanda ne yapsanız izlenme kasıyor. Kaçırmayın derim. Ben, kaçırmayı tercih ediyorum ama siz etmeyin.

Elinize sağlık.
 

Ertugrul'

Basın&Medya Ekibi Deneyimli
22 Mar 2023
1,155
897
Photoshop 🔥
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Elinize Emeğinize Sağlık Güzel Bir Konu Olmuş.
 
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Ellerine emeklerine sağlık.Geçen haftalarda Twich yayıncıları üzerinden şarkı yapmışlardı bunlarla ilgili.Kürsü konuşmalarını twich deki kişiler yapıyordu 😄.
 

Nemesa

Katılımcı Üye
15 Şub 2023
285
133
System32.exe/nemesaxploit
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Sosyal medyada çok görmüştüm sağolun hocam.
 

Muslukcu

Katılımcı Üye
17 Kas 2021
699
262
Tesisat dükkanı
f8l1281.png

İyi günler Türk Hack Team ailesi.
Bugün sizlere sosyal medya da devamlı denk geldiğimiz, x kişisinin sesiyle y kişisinin şarkısını seslendirmeyi yani ses klonlamayı anlatacağım.
Eğer yeteri kadar ilgi gelirse, bir başka konuda da klonlanlanmış sesi tespit etmeyi anlatabilirim.

PpUz4Fr.gif


F3beZqk.png

Aktif olarak sosyal medya kullanıyorsanız, bu sıralar mutlaka ünlü bir kişinin x şarkısını çok profesyonel bir şekilde ai ile coverlandığına denk gelmişsinizdir.
Örnek:


Yaklaşık 1 aydır bu konu çok popüler. Fakat, bu konu aslında o kadar da yeni birşey değil. Sadece geniş kitlelere ulaşabilecek kolaylığa yeni erişiyor.
Bugün de bu konu üzerinde duracağız.



Ses Eğitme İşlemi
F3beZqk.png

Retrieval-based Voice Conversion yani kısaca RVC yazılımı üzerine geliştirilmiş mimarileri kullanacağız. Peki neden? Çünkü RVC diğer ai algoritmalarına göre 10 dakikadan kısa ses kayıtlarıyla mükemmel klonlar oluşturmanızı sağlıyor.

Bu adrese giderek colab dosyasını drive adresimize kopyalayalım.

Ardından sol tarafta bulunan play butonuna basarak notebook'ta yer alan kodumuzu çalıştırarak kurulumu yapalım.

4VYY8XR.png

Notebook da kurulum tamamlandıktan sonra, Google Colab bize bir Gradio linki oluşturacak. Link oluştuktan sonra linke giriş yapalım.
UKKERB0.png

Linke giriş yaptıktan sonra eğer yapay zeka uygulamalarıyla ilgileniyorsanız, görmeye alışık olduğumuz hugging face temasında bir sayfa açıldığını fark edeceksiniz.

8jEr4EY.png

Burada en üstte yer alan Train sekmesine giriş yapalım.
nOZdz2v.png

Bütün ses eğitme işlemlerimizi burada yapacağız. Kimin sesini eğitmek istiyorsak, o kişinin temiz bir ses kaydına ihtiyacımız var. Ünlü bir kişinin ses kaydını alacaksanız eğer Youtube'den bulup, mp3 çevirebilirsiniz. Ses kaydı uzunluğu olarak ne kadar uzun bir veri verirseniz o kadar doğru sonuçlar elde edebilirsiniz. Fakat, bu durum işlem süresini arttırır. Ayrıca wav uzantılı dosyalarla çalışmak da daha temiz bir sonuç elde etmenizi sağlayabilir. Çünkü wav dosyaları, mp3 dosyaları gibi sıkıştırılmadan saklanıyor.


RVC kullanmamızın avantajı 10 dakikadan kısa ses kayıtlarıyla bile çok daha stabil ses klonları elde etmemizdi. Bundan dolayı başlangıç için 5-9 dakika aralığında bir ses kaydı kullanabilirsiniz.

Voice Name kısmına eğitteceğiniz sesin modelini ne olarak isimlendirmek istiyorsanız yazabilirsiniz.
jISm8IB.png

Path kısmına dokunmanıza gerek yok.

Ardından bi altında yer alan dosya yükleme kısmına
eğitmek istediğiniz kişinin ses kaydını sürükleyip, bırakın.
BoJfveW.png

Bu işlemi yaparken sağ tarafta Uploading yazısı, Download butonuna dönüşene kadar bekleyin. Download yazısı geldikten sonra 30 saniye daha bekleyin. Çünkü, Colab üzerinden çalıştığımız için hemen driveye yansımayabiliyor. Ardından Process The Dataset butonuna tıklayın.

SthAuo3.png

Ekranda "end preprocess" yazısını gördüğümüzde işlem tamamlanmış demektir. Bu işlem kısaca ses dosyasını belirli parçalara bölüyor.
Ardından pencerenin ortasında yer alan kısımdan hiçbir ayarı değiştirmeden
Pitch Extraction butonuna basabilirsiniz.

hj6IQj2.png

Bu işlem de yüklemiş olduğunuz ses içerisinde yer alan ses tonlarını, tınılarını, vb. çıkarmayı sağlıyor.
Bu işlem de yaklaşık 5 dakika kadar sürebilir.

tDJqiVZ.png

İşlem tamamlandığında ekranda all-feature-done yazısını görmeniz gerekiyor. Ayrıca beklerken yanlış birşey mi yaptım? gibi telaşlanmayın. Google Colab üzerindeki terminalden işlemleri ve %kaç tamamlandığını görüntüleyebilirsiniz.

Ardından en sağ tarafta yer alan kısıma geçebiliriz. Burası artık ses dosyasını eğitmeye başladığımız kısım. Epoch dediğimiz kavram yapay sinir ağının sizin datasetinizin üzerinden kaç defa geçeceğini belirtir. Her tekrarladığında da bir önceki kontrolüne göre yaptığı yanlışları tahminleyerek düzeltmeler uygular. Bu şekilde de daha doğru sonuçlar elde etmenizi sağlar. Buraya
200-250 arası bir değer girebilirsiniz. Daha doğru sonuçlar için biraz daha yüksek değer girebilirsiniz. Fakat, eğer çok yüksek değer girerseniz bu durum modelinizin bozulmasına ve yanlış sonuçlar vermesine neden olabilir. Ben 250 kullanmanızı tavsiye ederim.
ZuQTm57.png


Ardından Train Model butonuna basarak verimizi eğitelim. Bu işlem girdiğiniz verinin kalitesine, uzunluğuna, boyutuna,vb. bağlı olarak dakikalarca veya saatlerce sürebilir.
Eğitim tamamlandıktan sonra
Train Index butonuna tıklayın. Bu işlem, diğerine göre daha kısa sürecektir.
Ardından
Download Model butonuna tıklayın.

B9fju3u.png

Bu aşamaya kadar doğru geldiyseniz, görseldeki gibi 2 adet indirilebilir dosya görmeniz gerekiyor.
Bu dosyaları bilgisayarınıza indirin ve tek bir zip olacak şekilde zipleyin. Ardından Google Drive'da anasayfaya yükleyebilirsiniz. Ben biraz daha düzenli çalışmak için models diye bir klasör oluşturdum ve onun içine yükledim.

xDkPOcV.png

Artık cover yapabiliriz!
Cover Yapma İşlemi
F3beZqk.png

Cover yapmak için öncelikle cover yapacağınız şarkının vocal seslerine ihtiyacınız var.
Bunun için ilk önce cover yapacağımız şarkıyı mp3 olarak indirelim.
Ardından
bu linke
giderek şarkımızı yükleyelim.
rod4ngu.png

İşlem tamamlandıktan sonra sağ tarafta yer alan Save butonundan Music ve Vocal'i bilgisayarımıza indirelim. Bu servis günde 1 kere kullanma hakkı veriyor size. Fakat Deezer Spleeter gibi opensource yazılımlarla sınırsız bir şekilde kendi bilgisayarınızda aynı işlemi gerçekleştirebilirsiniz. Zaten bu website de aynı altyapıyı kullanıyor. Uzun bir konu olduğu için manuel bu işlemi nasıl gerçekleştireceğinizi başka bir konuya saklıyorum :)

Bu işlemi de yaptıktan sonra Colabımızda çalıştırdığımız gradio sayfasına geri dönüyoruz ve Inference sekmesine giriyoruz. Ekranın sol üst kısmında yer alan
refresh butonuna basıyoruz.
Vn7m1I0.png

Bu işlemi yaptıktan sonra Choose your Model. kısmında Drive'ye yüklediğimiz zip dosyasını algılıyor ve eğitilmiş modelleri görüntülüyor. Modelimizi seçelim.
Ardından bi alt kısmında yer alan dosya sürükleme yerine indirmiş olduğumuz şarkının vocalini atalım.

OihuLBF.png

Ardından hiçbir şeye dokunmadan, sağ tarafta yer alan Convert butonuna tıklayalım. Bu işlem yaklaşık 1-2 dakika sürer.

İşlem tamamlandıktan sonra ses klonlama işleminiz hazır! Klonlanmış sesi sağ tarafta yer alan ekranda görebilirsiniz. Sağ tıklayıp bilgisayarınıza kaydedebilirsiniz.
jIYcKYR.png

Burdan sonrası artık klonlanmış ses ile arka plandaki müziği birleştirmeye kalıyor. Birleştirme işlemi için herhangi bir aracı kullanabilirsiniz.

Ben AudaCity Kullanıyorum.

Benim vocalim ve arkaplanda yer alan müziği AudaCity'e attıktan sonra export ediyorum ve işlem tamamlanmış oluyor. Ayrıca küçük bir tavsiye, genelde arkaplan müziği daha baskın oluyor. Bundan dolayı db ayarlarından birazcık sesi düşürebilirsiniz.

K5xBMa1.png


F3beZqk.png

Umarım konu ilginizi çekmiştir. Derin öğrenme ile ilgili daha önceden yazmış olduğum şu konuya da göz atabilirsiniz:
Eline sağlık
 
Üst

Turkhackteam.org internet sitesi 5651 sayılı kanun’un 2. maddesinin 1. fıkrasının m) bendi ile aynı kanunun 5. maddesi kapsamında "Yer Sağlayıcı" konumundadır. İçerikler ön onay olmaksızın tamamen kullanıcılar tarafından oluşturulmaktadır. Turkhackteam.org; Yer sağlayıcı olarak, kullanıcılar tarafından oluşturulan içeriği ya da hukuka aykırı paylaşımı kontrol etmekle ya da araştırmakla yükümlü değildir. Türkhackteam saldırı timleri Türk sitelerine hiçbir zararlı faaliyette bulunmaz. Türkhackteam üyelerinin yaptığı bireysel hack faaliyetlerinden Türkhackteam sorumlu değildir. Sitelerinize Türkhackteam ismi kullanılarak hack faaliyetinde bulunulursa, site-sunucu erişim loglarından bu faaliyeti gerçekleştiren ip adresini tespit edip diğer kanıtlarla birlikte savcılığa suç duyurusunda bulununuz.