" Microsoft VALL - E "

314Kachu

Üye
8 Eyl 2009
228
167
Seni seçtim 3.14Kachu
36mwd8p.jpg




Herkese merhaba THT ailesi.

Sizlere
Microsoft'un geliştirme aşamasında olduğu yeni yapay zekası Vall - E hakkında bilgi paylaşmaya çalışacağım.



Microsoft’un Yeni Yapay Zekâsı: VALL - E


Sesinizi Taklit Etmesi İçin 3 Saniye Yeterli



Microsoft'taki araştırmacılar, VALL-E adlı yeni bir metinden konuşmaya yapay zeka modelini açıkladılar.

VALL-E, 3 saniyelik bir ses örneği verildiğinde insan sesini yakından taklit edebilir.

VALL-E belirli bir sesi öğrendiğinde, konuşmacının tonunu koruyacak şekilde bir kişinin söylediklerini sentezleyebilir.

VALL-E, GPT-3 gibi diğer üretken AI modelleriyle birleştiğinde metin okuma uygulamaları, insan sesi kayıtlarını düzenleme ve ses içeriği oluşturma gibi alanlarda kullanılabilir.

Microsoft, VALL-E'yi "nöral codec dili modeli" olarak adlandırır ve
Meta'nın Ekim 2022'de duyurduğu EnCodec adlı bir teknolojiye dayanır.

WALL – E ‘yi diğer dalga biçimlerini metinden konuşmaya sentezleyen yöntemlerden ayıran özellik, Ses Codec kullanmasıdır.Temel olarak insan sesini analiz eder, EnCodec sayesinde bu

bilgiyi kendi bileşenlerine ayırır ve eğitim verilerini kullanarak 3 saniyelik örnek dışında bir cümle konuştuğunuzda kulağa nasıl geldiğini anlamak için kullanır. gibi geliyor.






Microsoft’un VALL-E makalesinde belirttiği gibi:

“Konuşma seslerini sentezleyebilmek için sırasıylaşunları yapıyor :

Konuşmacı ve içerik hakkında hiç bir bilgi olmayan 3 saniyelik kayıtlı kaydın akustik belirteçlerine ve fonem istemine bağlı olarak ilgili akustik belirteçleri üretir.

Üretilen bu akustik belirteçler, nöral kod çözücü ile son dalga türünü sentezlemek için kullanılır.”



Microsoft, VALL-E’ye konuşma sentezi yeteneğini Meta tarafından bir araya getirilen LibriLight adlı bir ses kitaplığı sayesende geliştirdi.

Bu kitaplık, başta LibriVox kamuya açık sesli kitaplardan olmak üzere 7.000'den fazla konuşmacı tarafından konuşulan 60.000 saatlik İngilizce içerir.

VALL-E'nin iyi sonuçlar vermesi için 3 saniyelik örneğin sesinin eğitim verilerinin sesiyle yakından eşleşmesi gerekir.




VALL-E örnek web sitesinde Microsoft'un yapay zeka modelinin iş başındaki örnekleri arasında "hoparlör istemi", taklit etmesi için VALL-E'ye verilen üç saniyelik bir ses örneğidir.

"Yer Gerçeği", aynı konuşmacının karşılaştırma amacıyla belirli bir cümleyi söylediği mevcut bir kayıttır (bir kontrol olarak düşünülebilir).

"Temel", geleneksel konuşma sentezi yöntemleriyle yapılan bir sentezin bir örneğidir. Ve son olarak VALL-E çıkışı.

Bazı sonuçlar bilgisayar tarafından üretilmiş gibi görünebilir, diğerleri ise insan konuşmasıyla karıştırılabilir.



npp5dq6.jpg



VALL-E, yalnızca örneklenen seslerin 'akustik ortamını' taklit etmekle kalmaz, aynı zamanda konuşmacının sesinin tınısını ve duygusal tonunu da koruyabilir.

Örneğin, ses örneği bir telefon görüşmesinden ise, telefon görüşmesinin akustik ve frekans özellikleri sentezlenmiş ses çıkışında taklit edilebilir.

Microsoft, olası kötüye kullanım ve hile nedeniyle VALL-E kodunu yayınlamadı.

Bu teknolojinin topluma zarar verebileceğinin farkında olan araştırmacılar, makalenin son bölümünde şunları yazıyor:




“VALL-E, konuşmacıyı tanımadığı halde konuşma sentezleyebildiğinden, Şöyle riskler barındırabilir :

modelin kötüye kullanımı

ses tanımlama sahtekarlığı

belirli bir konuşmacıyı taklit etme

Bu riskleri azaltmak için şöyle önlemler alınabileceği belirtiliyor :

Bir ses dalgasının sentezlenip sentezlenmediğini ayırt etmek için bir algılama modeli oluşturmak.


Modelleri daha da geliştirirken Microsoft Yapay Zeka İlkelerini de uygulamaya koymak.”





Ek Bilgiler


GPT-3



j2hbfjh.jpg



Generative Pre-trained Transformer 3 kısaca GPT-3, insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan özbağlanımlı dil modelidir.

GPT-n serisindeki üçüncü nesil dil tahmin modeli olan GPT-3, San Francisco merkezli yapay zeka araştırma laboratuvarı OpenAI tarafından geliştirilmiştir.




LibriVox


q4y13me.png



LibriVox , kamu malı metinleri okuyup kaydeden , kendi web sitelerinden ve internetteki diğer dijital kütüphane barındırma sitelerinden indirilmek üzere

ücretsiz kamu malı sesli kitaplar oluşturan, dünya çapında gönüllülerden oluşan bir gruptur.

2005 yılında Hugh McGuire tarafından "Kamu malı kitapların akustik özgürleşmesini" sağlamak için kuruldu ve LibriVox'un amacı

"Kamu malı olan tüm kitapları internette ses formatında ücretsiz olarak sunmak".

6 Ağustos 2016'da tamamlanan proje sayısı 10.000, 14 Şubat 2021'de ise 15.000 tamamlanmış proje vardı.

Yayınların çoğu İngilizce dilindedir, ancak İngilizce olmayan pek çok eser de mevcuttur. Ek içerik sağlayan birden fazla bağlı proje var.



Haberden bağımsız olarak sevdiğim bir animasyon filmi olan "Wall - E" ' yi izlemenizi tavsiye ederim.



Buraya kadar okuduğunuz için teşekkür ederim.
Saygılar.


laf7ztv.png






 
Üst

Turkhackteam.org internet sitesi 5651 sayılı kanun’un 2. maddesinin 1. fıkrasının m) bendi ile aynı kanunun 5. maddesi kapsamında "Yer Sağlayıcı" konumundadır. İçerikler ön onay olmaksızın tamamen kullanıcılar tarafından oluşturulmaktadır. Turkhackteam.org; Yer sağlayıcı olarak, kullanıcılar tarafından oluşturulan içeriği ya da hukuka aykırı paylaşımı kontrol etmekle ya da araştırmakla yükümlü değildir. Türkhackteam saldırı timleri Türk sitelerine hiçbir zararlı faaliyette bulunmaz. Türkhackteam üyelerinin yaptığı bireysel hack faaliyetlerinden Türkhackteam sorumlu değildir. Sitelerinize Türkhackteam ismi kullanılarak hack faaliyetinde bulunulursa, site-sunucu erişim loglarından bu faaliyeti gerçekleştiren ip adresini tespit edip diğer kanıtlarla birlikte savcılığa suç duyurusunda bulununuz.