Google’da Saldırgan İçerik Sınıflandırması

Aşağıdaki makale size yardımcı olacaktır:Google’da Saldırgan İçerik Sınıflandırması

Bazen Bazı Kelimeler Nasıl Kullanıldıklarına Göre Saldırgan Olabilir veya Olmayabilir

Dünyanın bazı yerlerinde, “Shag” kelimesi, bazı insanların rahatsız edici bulabileceği bir faaliyeti anlatır. Ben kelimenin bu anlamını kullanmadığımız ve birçok odasında tüylü halıların olduğu bir evde büyüdüm. Bir Austin Powers filmi (Austin Powers: The Spy Who Shagged Me) izleyene kadar bu kelimenin başka bir anlamının farkına vardım.

Google’dan alınan bir patent, saldırgan içeriğin nasıl tanımlanabileceği ve yazılımın, söz konusu içeriğin söz konusu yazılımın son kullanıcılarına sunulmadan önce potansiyel olarak rahatsız edici kelimeleri yeniden düzenlemek (veya gizlemek) için nasıl kullanılabileceği ile ilgilidir. Bazı yazılımlar, saldırgan bir terimin tüm örneklerini, söz konusu terim “önceden tanımlanmış saldırgan terimler listesinde” bulunursa siler. Bazen saldırgan olarak kabul edilen bir terim, saldırgan olmadığı düşünülen bir bağlamda bulunursa, düzeltilmeyebilir.

Rahatsız Edici İçerik Nerelerde Çıkarılabilir?

Patentin açıklaması, arkasındaki süreçleri yararlı bir şekilde özetlememekle birlikte pek çok alanı kapsar. İncelerken, sosyal medya gönderilerini, videoların dökümlerini, metin mesajlarını, Sohbeti, Web sayfalarını, ticari web sitelerinde kullanıcı tarafından oluşturulan içeriği kapsadığını görürsünüz.

Rahatsız edici içerik barındıran bir sayfanın Web’deki diğer sayfalardan daha düşük kaliteli içerik olarak kabul edilebileceğinden söz edilmiyor, ancak bu tür içeriğin Google’ın Dizininde veya muhtemelen Google’ın bazı kontrollere sahip olabileceği yerlerde gizlenebileceği seçeneği var. içeriğin yayınlanması (muhtemelen eski Google+ veya Youtube gibi) veya muhtemelen forum dizilerinden veya bloglardaki kullanıcı yorumlarından içerik dizine eklenirken.

Bir site sahibinin başkalarından alıntı yapması veya sayfalarına kullanıcı tarafından oluşturulan içerik eklemesi, içerikle ve bunun saldırgan olup olmadığıyla ilgili soruların olabileceği başka bir yer.

İçeriğinde “kanlı” kelimesinin yer aldığı patent çizimlerinden bir örnek ve en az bir örnekte bunun nasıl yeniden düzenlenebileceği:

Saldırgan İçeriği Neden Sınıflandıralım?

Bazı içerikler, Web’i ziyaret edenler veya youtube yorumlarını veya metinlerini okuyanlar veya sosyal medya tarafından hoş karşılanmayabilir.
Bir halı mağazasının müşterisinin mağazadan satın aldığı tüylü halıyı ne kadar sevdiğini söyleyen bir yorum eklemesi gibi, bazı yerlerde bazı insanlar için rahatsız edici ve diğer bağlamlarda zararsız olabilecek birden çok anlamı olan bazı kelimeler. Bu incelemeyi gizlemek, bazı potansiyel müşterilerin kafasını karıştırabilir çünkü bu bağlamda hiçbir şekilde saldırgan değildir.

Tavsiye Edilen:  7 najlepszych przykładów strategii marketingowych WhatsApp

Saldırgan İçeriği Belirlemek İçin Bir Sınıflandırıcı Eğitmek

Patentin arkasındaki teknikler, potansiyel olarak saldırgan olabilecek bir terimin ne zaman saldırgan veya saldırgan olmayan bir şekilde kullanıldığını anlaması için bir sınıflandırıcıyı eğitmektir.

Bu, potansiyel olarak rahatsız edici içeriği, saldırgan bir şekilde kullanılmıyorsa kaldırmadan yeniden düzenlemek için yapılabilir.

Patent bize şunu söylüyor:

Ayrıca, bir sınıflandırıcının, bir metin örneğinin bir derece saldırganlık içerip içermediğini belirlerken bağlamı kullanmak için içeriğe dayalı bilgilerin ötesine bakabileceği söylendi.

Patent bize, “sevişmek” kelimesinin bazı bağlamlarda rahatsız edici olabileceğini, bazılarında ise olmadığını söylüyor:

Örneğin, “sevişmek” kelimesi bazı bağlamlarda saldırgan olabilir, ancak diğerlerinde olmayabilir:

Bu metin örneklerinin her birinin içeriğinden “sevişmek” kelimesinin bağlamı, ilk örneğin saldırgan olduğunu ve ikinci örneğin saldırgan olmadığını belirlemek için kullanılabilir.

Ayrıca Google, örneklerin bir halı satıcısındaki bir müşteriden olup olmadığı gibi harici bağlam bilgilerine bakabilir ve bu da bunun bir halı türüne atıfta bulunduğunu gösterir.

Saldırgan Bir Dil Sınıflandırıcı Eğitmek İçin Makine Öğrenimi

Google, metin örneklerinin içeriğine veya metin örnekleriyle ilgili bağlamsal bilgilere bakmanın yanı sıra rahatsız edici içeriği belirlemek için makine öğrenimi tekniklerini kullanabilir:

Bize bir sınıflandırıcının “sınıflandırıcının doğruluğunu artırmak için birden çok eğitim yinelemesinde tekrar tekrar eğitilebileceği” söylendi.

Bu makine öğrenimi yaklaşımı ve eğitim verilerini etiketlemek için insanları kullanmaktan eğitim verilerini etiketlemeye nasıl geçebileceği hakkında daha fazla bilgi verildi.

Ayrıca, “etiketin, potansiyel olarak rahatsız edici olan belirli bir terimin ilk metin örneğinde rahatsız edici bir şekilde kullanılıp kullanılmadığını doğru bir şekilde gösterdiğine dair güveni” gösteren bir “etiket güven puanı” da geliştirebilir.

Bu yaklaşım, rahatsız edici içeriği belirlemeye yardımcı olması için n-gramlar hakkındaki bilgileri de kullanabilir.

Tavsiye Edilen:  Dönüşümleri Artırmak için Avukatlar İçin Google Reklamlarından Nasıl Yararlanılır?

Ayrıca, “metin örneğindeki terimlerin dağılımına” bakabilecek bir kelime torbası yaklaşımından da bahsediliyor.

Patent, metin örneklerini, patentin kapsadığı içerik aralığını gösteren ve yalnızca farklı uygulamalardaki ve web sayfalarındaki sayfalardaki metin örneklerine bakmayı değil, aynı zamanda videoların transkriptlerini de içeren transkriptlerden gelen ifadeler olarak açıklamaya gider. .

Patentte açıklanan rahatsız edici içerik sınıflandırma sürecine hızlı bir genel bakış:

  1. Çok sayıda metin örneğinin elde edilmesi
  2. Çok sayıda metin örneği arasından, her biri belirli bir potansiyel olarak rahatsız edici terim içeren ilk metin örnekleri kümesinin belirlenmesi
  3. İlk metin örnekleri grubu için, belirli potansiyel olarak rahatsız edici terimin, ilk metin örnekleri grubundaki ilgili metin örneklerinde rahatsız edici bir şekilde kullanılıp kullanılmadığını gösteren etiketlerin elde edilmesi
  4. Eğitim, en azından ilk metin örnekleri kümesine ve ilk metin örnekleri kümesine ilişkin etiketlere dayalı, potansiyel olarak rahatsız edici bir terim olup olmadığını gösteren bir etiket oluşturmak için bir metin örneğiyle ilişkili bir veya daha fazla sinyali kullanmak üzere yapılandırılmış bir sınıflandırıcı metin örneğinde, metin örneklerinde saldırgan bir şekilde kullanılır
  5. Sınıflandırıcıya, belirli potansiyel olarak rahatsız edici terimi içeren bir ilk metin örneğinin sağlanması
  6. Sınıflandırıcıdan, belirli potansiyel olarak rahatsız edici terimin ilk metin örneğinde rahatsız edici bir şekilde kullanılıp kullanılmadığını gösteren bir etiket elde etme

Saldırgan İçerik ve Makine Öğrenimi

Saldırgan Dil Sınıflandırma Sürecini Takip Etmenin Avantajları

Bir veya daha fazla rahatsız edici terim içeren metin örneklerini etiketleyen bir sınıflandırıcı, nispeten az sayıda önceden etiketlenmiş metin örneği kullanılarak eğitilebilir.

Eğitim setinde ihtiyaç duyulan (makine öğreniminin arkasındaki algoritmayı öğretmek için kullanılan) tüm metin örneklerinin manuel olarak etiketlenmesi gerekmez.

Eğitilmiş sınıflandırıcının çıktısı, Web’deki metin örneklerinden rahatsız edici terimleri seçmek ve düzeltmek için kullanılabilir.

Tavsiye Edilen:  İçerik dağıtımında işbirliklerinin ve ortaklıkların rolü

Potansiyel olarak saldırgan olan terimler, belirli bir metin örneğinin bağlamında rahatsız edici olmayan terimler çıkarılamaz.

Bu, sınıflandırıcının rahatsız edici olmayan terimlerin gereksiz yere yeniden düzenlenmesini önleyebileceği anlamına gelir.

Artı tarafta, sınıflandırıcı, bir metin örneğindeki belirli bir terimin, terimi tek başına ele almak yerine, bir bütün olarak metin örneğinin içeriğine dayalı olarak metin örneğinde rahatsız edici bir şekilde kullanılma veya kullanılmama olasılığını belirler.

Bu patent şu adreste bulunabilir:

Saldırgan kelimelerin sınıflandırılması
Mucitler: Mark Edward Epstein, Pedro J. Moreno Mengibar
Vekil: Google LLC
ABD Patenti: 10.635.750
Verildi: 28 Nisan 2020
Dosyalandı: 17 Nisan 2018

Soyut

Bill Slawski hakkında

26 yılı aşkın SEO deneyimi ve Hukuk Doktoru Derecesi ile Bill Slawski, Google’ın SEO ile ilgili patentleri konusunda en önde gelen uzmandır. Patent Keşfi, SEO hakkında yeni bilgiler bulmanın en hızlı ve en ayrıntılı yollarından biridir. Bill, önde gelen bir arama motoru optimizasyonu blogu olan SEO by the Sea’nin Editörüdür ve burada 1.300’den fazla gönderinin yazarıdır. Bill’in deneyimi, Fortune 500 markalarını ve dünyanın en büyük web sitelerinden bazılarını içerir. Bill, Moz, Search Engine Land ve Search Engine Journal için katkıda bulunan bir yazardır. 2014-2021’de arama motoru algoritmaları, evrensel ve harmanlanmış arama, aramada kişiselleştirme, arama ve sosyal ve yinelenen içerik sorunları, yapılandırılmış veri ve şema gibi konularda sektör lideri uluslararası konferanslarda konuşma yaptı.