Aşağıdaki makale size yardımcı olacaktır:Google Konuşmacı Kimlik Vektörleri – Go Fish Digital
Konuşmacı Tanımlama Vektörleri Nedir ve Ne İçin Kullanılır?
Google, bu yılın Şubat ayında konuşma tanıma sistemlerini ve bunların bir konuşmacının kimliğini belirlemek veya doğrulamak için nasıl kullanılabileceğini içeren bir patent aldı.
Patent bize, genellikle konuşmacıdan alınan konuşma örneklerine dayalı olarak olası kimliğin belirlenmesini içeren önceki konuşmacı tanımlama girişimlerinden bahseder.
Bize, bir sistemin seçmesi gereken daha fazla potansiyel konuşmacı kimliği olduğu, tüm potansiyel konuşmacı kimlikleri arasından doğru konuşmacıyı belirlemek için daha fazla hesaplama ve zaman gerektiği söylendi.
Google neden konuşmacı kimliğiyle ilgileniyor?
Konuşmacı tanımlama, aşağıdakilere yardımcı olabilecek bir konuşma işleme alanıdır:
- Kimlik doğruluğu
- Konuşmacı veritabanında hızlı arama
Bu patent bana Mart ayında hakkında yazdığım bir yazıyı hatırlattı. Yazar Vektörleri: Google Kimin Hangi Makaleleri Yazdığını Biliyor
Bu patentte, yazar vektörlerinin nasıl faydalı olabileceği söylendi:
Dolayısıyla Google, yazarların ne yazdığıyla ve ayrıca konuşmacıların ne söylediğiyle ilgilenir.
Geçenlerde, web sitelerini Google arama mühendislerinin Web Sitesi Temsil Vektörleri olarak adlandırdıkları şeye göre sınıflandıran bir patent başvurusu hakkında yazmıştım. Uzmanlık ve Yetkiyle Sınıflandırmak İçin Web Sitesi Temsili Vektörlerini Kullanma Google’da bu patent hakkında bir yazı yayınladım.
Yazarların, konuşmacıların ve web sitelerinin bu tür bir şekilde tanımlanması ve sınıflandırılması ve bunların tanımlanmasına ve sınıflandırılmasına yardımcı olan özelliklerin kullanılması, Google’dan gelen yeni bir trendin parçasıdır. Google’ın 2012’de başlattığı bilgi grafiğinin arkasındaki amaç olan gerçek dünya nesnelerini dizine eklemeye uygundur. Google, gerçek konuşmacıları, yazarları ve web sitelerini dizine eklemek, her birini bir varlık olarak ele almak, her birini anlayıp dizine eklemek istiyor. onları benzersiz yap.
Konuşmacı Kimlik Vektörleri
Konuşmacı vektörleri hakkında bize anlatılanlar:
Genel bir yönüyle, bir yöntem şunları içerir:
- Bir ifadeden türetilen bir ifade vektörü elde etme
- Çoklu farklı hash fonksiyonlarına göre söz vektörü için hash değerlerinin belirlenmesi
- Karma değerler kullanılarak çok sayıda karma tablodan bir konuşmacı vektörleri kümesinin belirlenmesi, her bir konuşmacı vektörü ilgili bir konuşmacının bir veya daha fazla ifadesinden türetilir
- Kümedeki konuşmacı vektörlerini ifade vektörü ile karşılaştırma
- Kümedeki konuşmacı vektörlerini konuşma vektörü ile karşılaştırmaya dayalı olarak bir konuşmacı vektörü seçme
Konuşmacı Tanımlama Vektörlerini içeren özellikler
Konuşmacı kimliğini içeren sürecin farklı versiyonları birçok ek özellik içerebilir.
Örneğin, bir ifade vektörü şunları içerir:
- Sözce için bir sözce i-vektörü elde edilmesi, sözcenin çok değişkenli faktör analizi kullanılarak belirlenen parametreleri içeren sözce i-vektörü
- Çok sayıda hash tablosundan konuşmacı vektörleri kümesinin, hash değerleri kullanılarak belirlenmesi, çok sayıda hash tablosundan bir konuşmacı i-vektörleri kümesinin belirlenmesini içerir; her konuşmacı i-vektörü, bir veya daha fazla ifadenin çok değişkenli faktör analizi kullanılarak belirlenen parametreleri içerir. ilgili bir konuşmacı
- Söylem vektörünün elde edilmesi, derin sinir ağına sağlanan sözle ilgili bilgilere yanıt olarak meydana gelen derin sinir ağı aktivasyonlarına dayalı olarak belirlenen parametreleri içeren bir ifade vektörünün elde edilmesini içerir.
- Konuşmacı vektörleri kümesinin, karma değerleri kullanılarak çok sayıda karma tablodan belirlenmesi, her bir konuşmacı vektörünün, bir veya daha fazla sözceye ilişkin bilgiye yanıt olarak meydana gelen derin sinir ağı aktivasyonlarına dayalı olarak belirlenen parametreleri içerdiği bir konuşmacı vektörleri kümesinin belirlenmesini içerir. derin sinir ağına sağlanan ilgili konuşmacı
Bu özellikler, bireysel konuşmacıların tanımlanmasına odaklanır:
- Konuşmacı vektörleri ve ilgili konuşmacılar arasındaki ilişkileri gösteren verilere erişme
- Konuşmacı vektörleri ile ilgili konuşmacılar arasındaki ilişkileri gösteren verilere dayalı olarak, seçilen konuşmacı vektörüne karşılık gelen bir konuşmacı kimliğinin belirlenmesi
- Konuşmacı kimliğini gösteren verilerin çıktısı
Patentin arkasındaki süreç, seçilen konuşmacı vektörüne karşılık gelen bir konuşmacının sözlerini içeren bir veya daha fazla medya öğesinin tanımlanmasını içerebilir; ve ardından tanımlanan bir veya daha fazla ortam öğesini gösteren çıktı verileri.
Bu yöntem şunları içerebilir:
- Seçilen konuşmacı vektörünün belirli bir kullanıcıya karşılık geldiğini belirleme
- En azından kısmen, seçilen konuşmacı vektörünün belirli bir kullanıcı kimliğine karşılık geldiğinin belirlenmesine dayanarak, belirli bir kullanıcının kimliğini doğrular.
Daha Ayrıntılı Konuşmacı Tanımlama Vektörleri
Her konuşmacı vektörü, farklı bir konuşmacıya karşılık gelir.
Süreç, seçilen konuşmacı vektörüne karşılık gelen konuşmacının, sözün konuşmacısı olduğunu gösteren verilerin sağlanmasını içerir.
Bu süreç, her biri ilgili bir konuşmacının konuşmasının özelliklerini gösteren çoklu konuşmacı vektörlerinin elde edilmesini içerebilir; ve çoklu konuşmacı vektörlerinin her bir belirli konuşmacı vektörü için:
- Birden çok farklı sağlama işlevinin her birine göre belirli konuşmacı vektörü için sağlama değerlerinin belirlenmesi
- Özel hoparlör vektörünü, karma değerlere dayalı olarak çok sayıda karma tablonun her birine ekleme
Konuşmacı Vektör Bilgilerini Toplama
Bir konuşmacının özellikleri hakkında benzersiz bilgilerin toplanması, videolardan ve birden çok videodan yapılır.
Çoklu konuşmacı vektörleri elde edilirken, bunların her biri, ilgili konuşmacının konuşmasının benzersiz özelliklerini gösterecektir. Bunu yapmak şunları içerebilir:
- Bir dizi çoklu video kaynağına erişme
- Birden çok video kaynağının her biri için bir hoparlör vektörü oluşturma
Başka bir genel yönde, bir yöntem şunları içerir: bir ifade için bir ifade i-vektörünün elde edilmesi; çok sayıda farklı sağlama fonksiyonuna göre ifade i-vektörü için sağlama değerlerinin belirlenmesi; hash değerleri kullanılarak çok sayıda hash tablosundan bir dizi hoparlör i-vektörünün belirlenmesi; kümedeki konuşmacı i-vektörlerini ifade i-vektörü ile karşılaştırmak ve kümedeki konuşmacı i-vektörlerini ifade i-vektörü ile karşılaştırmaya dayalı olarak bir konuşmacı i-vektörü seçmek.
Bu Konuşmacı Tanımlama Vektörleri patenti şu adreste bulunabilir:
Konuşmacı kimliği
Mucitler: Matthew Sharifi, Ignacio Lopez Moreno ve Ludwig Schmidt
Vekil: Google LLC
ABD Patenti: 10.565.996
Verildi: 18 Şubat 2020
Dosyalandı: 1 Haziran 2016
Soyut
Konuşmacı Kimlik Vektörleri Getirir
Patent, konuşmacı kimliğinin önemi ve bunun arkasındaki süreç hakkında çok daha fazla ayrıntı sağlıyor. Bize konuşmacı tanımlamanın bazı uygulamalarının şunları içerdiğini söyleyerek başlar:
- Güvenlik açısından kritik sistemlerde kimlik doğrulama
- Kişiselleştirilmiş konuşma tanıma
- Büyük şirketlerde konuşmacı arama
Patentin özetini özetledim, ancak bu patentin arkasında derinlemesine incelemeye değer çok daha fazla ayrıntı var. Örneğin, konuşma tanıma Web aramalarında kullanılabilir ve web güvenliği için önemli olabilir.
Daha fazla bilgi edinmek istiyorsanız, patenti baştan sona okumanız önerilir. Bununla birlikte, bu patenti yayınlayan mucitlerin bu konuda zaman geçirmeye değer bir teknik raporu da var, Büyük Ölçekli Konuşmacı Tanımlaması (pdf).
Son zamanlarda Youtube gibi yerlerde transkriptlerin kalitesi hakkında birkaç SEO uzmanıyla tartışmalar yaptım. Aldığım geri bildirimler, transkriptlerin kalitesinin önemli ölçüde arttığı yönünde. Bunun Konuşmacı Tanımlama Vektörleri sürecinden kaynaklanıp kaynaklanmadığını bilmiyorum ama ilgili olabilir.
Bu yılın başlarında, yazıyı yazdım Alıntı Arama, Videolara Odaklanmak İçin Google’da Güncellendi Bu, Google’ın Wikipedia gibi bilgi tabanlarında bu alıntılar hakkında bilgi bulmaya güvenmek yerine videolardaki metinleri analiz ederek alıntılar hakkında bilgi sağlamak için bir patenti güncellemesiyle ilgiliydi. Google, videolardaki sesi analiz etme konusunda daha iyi olmak için zaman harcadıysa (bu patentte de bahsedilmektedir), bu, YouTube gibi yerlerdeki dökümlerin kalitesinin neden arttığını açıklayabilir.
Bill Slawski hakkında
26 yılı aşkın SEO deneyimi ve Hukuk Doktoru Derecesi ile Bill Slawski, Google’ın SEO ile ilgili patentleri konusunda en önde gelen uzmandır. Patent Keşfi, SEO hakkında yeni bilgiler bulmanın en hızlı ve en ayrıntılı yollarından biridir. Bill, önde gelen bir arama motoru optimizasyonu blogu olan SEO by the Sea’nin Editörüdür ve burada 1.300’den fazla gönderinin yazarıdır. Bill’in deneyimi, Fortune 500 markalarını ve dünyanın en büyük web sitelerinden bazılarını içerir. Bill, Moz, Search Engine Land ve Search Engine Journal için katkıda bulunan bir yazardır. 2014-2021’de arama motoru algoritmaları, evrensel ve harmanlanmış arama, aramada kişiselleştirme, arama ve sosyal ve yinelenen içerik sorunları, yapılandırılmış veri ve şema gibi konularda sektör lideri uluslararası konferanslarda konuşma yaptı.