Konuşma 2 Yüz: Seslerden Yüzler Nasıl Oluşturulur

Speech2Face: Bir Sesin Arkasındaki Yüzü Öğrenmebir sinir ağı, seslerden yüz ilişkilerini öğrenir ve sonunda ses kayıtlarından yüzler oluşturabilir. Ayrıntılı olarak oldukça zayıf çalışıyor, insanları tanıyamıyorsunuz, ancak algoritma ses kayıtlarını ten rengine, cinsiyete ve yaşa göre oldukça iyi sıralıyor.

Çin, Müslüman azınlıklara zulmetmek için zaten yapay zeka yüz tanımayı kullanıyor ve elbette büyük ölçekli gözetim önlemlerinin kullanımında öncü. Böyle bir algoritma, Uygurları kendilerine ait olmayan cihazlarla veya numaralarla arıyor olsalar bile, Çinli yetkililer için telefon şebekesindeki Uygurları tespit edebilir. Yüzleri seslerden yeniden oluşturmak ilk bakışta kulağa komik geliyor, ancak dijital kimlik parçacıkları (ses veya fotoğraf veya video klip veya yazı stili gibi) kullanarak kalabalıkların AI destekli sınıflandırılması zaten olduğu gibi) kitlesel gözetleme teknolojisi olarak giderek daha fazla ortaya çıkıyor. Hileler, bu teknolojilerin, gerçek insanlar tarafından Orwellian gözetiminin bir çocuk doğum günü partisi gibi hissettirdiği bir distopya yaratmak için gerekenlere sahip olduğu gerçeğini gizlememelidir.

Bir kişinin konuşma tarzından bakışları hakkında ne kadar sonuç çıkarabiliriz? Bu yazıda, o kişinin konuştuğu kısa bir ses kaydından bir kişinin yüz görüntüsünü yeniden oluşturma görevini inceliyoruz. Bu görevi, konuşan insanların milyonlarca doğal İnternet / YouTube videosunu kullanarak gerçekleştirmek için derin bir sinir ağı tasarlıyor ve eğitiyoruz. Eğitim sırasında modelimiz, konuşmacıların yaş, cinsiyet ve etnik köken gibi çeşitli fiziksel özelliklerini yakalayan görüntüler üretmesine izin veren ses-yüz ilişkilerini öğrenir. Bu, öznitelikleri açık bir şekilde modellemeye gerek kalmadan, İnternet videolarındaki yüzlerin ve konuşmanın doğal bir arada oluşması kullanılarak kendi kendine denetlenen bir şekilde yapılır. Doğrudan sesten elde edilen Speech2Face rekonstrüksiyonlarımızın, hoparlörlerin gerçek yüz görüntülerine nasıl benzediğini değerlendiriyor ve sayısal olarak ölçüyoruz.

"Draven's Tales from the Crypt" 15 yılı aşkın bir süredir tatsız bir mizah karışımı, ciddi gazetecilik (güncel olaylara ve siyasi basının dengesiz haberciliğine dayanan) ve bol miktarda sanat, eğlence ve punk rock ile süslenmiş zombilerle büyüleyici. Draven hobisini sınıflandırılamayacak popüler bir markaya dönüştürdü.

Blogum, bırakın siyasi olmayı, haber yaymak için asla tasarlanmadı, ancak güncel olaylar söz konusu olduğunda, diğer tüm kanallarda aksi takdirde sansürlenen bilgileri burada yakalamaktan kendimi alamıyorum. Tasarım sayfasının bu konuda pek çok kişiye "ciddi" gelmeyebileceğinin farkındayım, ancak bunu "ana akımı" memnun etmek için değiştirmeyeceğim. Devlete uymayan bilgilere açık olan herkes ambalajı değil içeriği görür. Son 2 yılda insanlara bilgi sağlamaya yeterince çalıştım, ancak nasıl "paketlendiğinin" değil, diğer kişinin ona karşı tutumunun ne olduğunun önemli olduğunu hemen fark ettim. Herhangi bir şekilde beklentileri karşılamak için kimsenin ağzına bal sürmek istemiyorum, bu yüzden bu tasarımı koruyacağım çünkü umarım bir noktada bu siyasi açıklamaları yapmaktan vazgeçebileceğim, çünkü amacım devam etmek değil. sonsuza kadar böyle Bununla nasıl başa çıkacaklarını herkese bırakıyorum. Ancak, içeriği kopyalayıp dağıtabilirsiniz, blogum her zaman WTFPL lisansı.

Aslında burada ne yaptığımı tarif etmekte zorlanıyorum, DravensTales bir kültür blogu, müzik blogu, şok blogu, teknoloji blogu, korku blogu, eğlenceli blog, web'de bulunan öğeler hakkında bir blog, tuhaf internet hakkında, çöp blogu, sanat blogu, su ısıtıcısı, zeitgeist blogu oldu yıllar boyunca , Scrap blog ve grab bag blogu adlı. Doğru olan her şey ... - ama henüz değil. Blogun ana odak noktası, kelimenin en geniş anlamıyla çağdaş sanattır.

Sitenin işleyişini sağlamak için, hoş geldiniz Kredi kartı, Paypal, Google Pay, Apple Pay veya otomatik ödeme/banka hesabı ile bağış yapın. Bu blogun tüm okuyucularına ve destekçilerine çok teşekkürler!