Speech2Face: Bir Sesin Arkasındaki Yüzü Öğrenmebir sinir ağı, seslerden yüz ilişkilerini öğrenir ve sonunda ses kayıtlarından yüzler oluşturabilir. Ayrıntılı olarak oldukça zayıf çalışıyor, insanları tanıyamıyorsunuz, ancak algoritma ses kayıtlarını ten rengine, cinsiyete ve yaşa göre oldukça iyi sıralıyor.
Çin, Müslüman azınlıklara zulmetmek için zaten yapay zeka yüz tanımayı kullanıyor ve elbette büyük ölçekli gözetim önlemlerinin kullanımında öncü. Böyle bir algoritma, Uygurları kendilerine ait olmayan cihazlarla veya numaralarla arıyor olsalar bile, Çinli yetkililer için telefon şebekesindeki Uygurları tespit edebilir. Yüzleri seslerden yeniden oluşturmak ilk bakışta kulağa komik geliyor, ancak dijital kimlik parçacıkları (ses veya fotoğraf veya video klip veya yazı stili gibi) kullanarak kalabalıkların AI destekli sınıflandırılması zaten olduğu gibi) kitlesel gözetleme teknolojisi olarak giderek daha fazla ortaya çıkıyor. Hileler, bu teknolojilerin, gerçek insanlar tarafından Orwellian gözetiminin bir çocuk doğum günü partisi gibi hissettirdiği bir distopya yaratmak için gerekenlere sahip olduğu gerçeğini gizlememelidir.
Bir kişinin konuşma tarzından bakışları hakkında ne kadar sonuç çıkarabiliriz? Bu yazıda, o kişinin konuştuğu kısa bir ses kaydından bir kişinin yüz görüntüsünü yeniden oluşturma görevini inceliyoruz. Bu görevi, konuşan insanların milyonlarca doğal İnternet / YouTube videosunu kullanarak gerçekleştirmek için derin bir sinir ağı tasarlıyor ve eğitiyoruz. Eğitim sırasında modelimiz, konuşmacıların yaş, cinsiyet ve etnik köken gibi çeşitli fiziksel özelliklerini yakalayan görüntüler üretmesine izin veren ses-yüz ilişkilerini öğrenir. Bu, öznitelikleri açık bir şekilde modellemeye gerek kalmadan, İnternet videolarındaki yüzlerin ve konuşmanın doğal bir arada oluşması kullanılarak kendi kendine denetlenen bir şekilde yapılır. Doğrudan sesten elde edilen Speech2Face rekonstrüksiyonlarımızın, hoparlörlerin gerçek yüz görüntülerine nasıl benzediğini değerlendiriyor ve sayısal olarak ölçüyoruz.