Konuyu web filtreleme (Web Filtering) olarak ele alacak olursak, bu alan günümüzde de hala güncelliğini korumakta ve her yıl bu alanda birçok makale yayınlanmaktadır. Bu alanda yazılmış makaleleri incelediğimiz zaman günümüze kadar birçok farklı yöntemin ele alındığını göreceğiz. Yazımızda kısaca bu yöntemlerden bahsedeceğiz.
- URL Bazlı Filtreleme
Zararlı içeriğe sahip web sitelerini filtreleme yöntemlerinden biri URL tabanlı filtrelemedir.
Önceden tanımlanmış web sitelerinin adresleri (URL) whitelist (Erişime izin verilen web sitelerinin listesi) ve blacklist (Erişimine izin verilmeyen web sitelerinin listesi) olarak mevcut yazılımlar tarafından kullanılmaktadır [1]. Bu tür yöntemler, yazının başında da bahsettiğimiz üzere, sürekli listenin güncellemesini gerektirdiğinden hem zaman hem de maliyet tüketimine neden olduğu için pek etkili değildir.
- Anahtar Kelime Filtreleme (Keyword Filtering)
Web filtrelemede sıklıkla kullanılan diğer yöntemlerden biri de anahtar kelime filtrelemedir. Bu yaklaşımda, istenmeyen içerikleri tespit etmek için önceden tanımlanmış, zararlı olduğu düşünülen anahtar kelimeler kullanılır. Test etmek istediğimiz web sitesini ele aldığımızda, bu web sitesinin içerisinde bulunan anahtar kelimeler (Anahtar kelimeler listesi ile karşılaştırılıp) sayılır ve önceden belirlen eşik sayısını aşması halinde web sitesi zararlı olduğu düşünülerek bloke edilir [2].
Bu tür çalışmalar metnin tamamını anlamsal olarak anlama becerisine sahip olmadığından yeterli olmayabilir. Ayrıca, anahtar kelime filtreleme sisteminden kaçmak isteyen zararlı içerik üreticisi, kelimeyi yanlış yazarak kolayca filtreden kurtulabilir.
- Makine Öğrenmesine Dayalı Filtreleme
Yukarıda bahsedilen yöntemlerin aksine yapay zekanın bir alt kümesi olan makine öğrenmesi kullanılarak web filtreleme alanında akıllı analizler yapmak mümkün. Eğer makine öğrenmesinden faydalanacaksak en önemli adımlardan biri ise makine öğrenmesi modelinin eğitilebilmesi için gerekli özniteliklerin çıkartılmasıdır. Makine öğrenmesine aşina değil iseniz öznitelik, her bir veri (Web sitesi) için ölçülebilir, ayırt edilebilir bir niteliktir aslında. Basit bir örnek vermek gerekirse: Ev fiyatlarını tahmin etmeye çalışan bir model geliştirelim. Her bir ev için oda sayısı, genişliği, bulunduğu semt birer özniteliktir. Biz bu özniteliklere bakarak her bir ev için fiyat tahmini yapmaktayız. Aynı durum web siteleri için de geçerli. Web sitelerinden çıkarılan öznitelikler baz alınarak web sitesinin zararlı olup olmadığı farklı makine öğrenmesi modelleri kullanılarak belirlenmeye çalışılır. Bizim örneğimize bakacak olursak, anahtar kelime sayısı, URL uzunluğu, kullanılan hyperlink (köprü) sayısı gibi her bir web sitesine özgü birçok öznitelik kullanılarak, bloke edilmesi gereken web siteleri makine öğrenmesi yardımıyla saptanmaya çalışılır [3].
- Derin Öğrenmeye Dayalı Filtreleme
Makine öğrenmesinin bir alt kümesi olan derin öğrenme, web filtreleme alanında oldukça kullanılmaktadır. Derin öğrenme modellerinin, geleneksel makine öğrenmesi modellerine kıyasla bu alanda daha çok tercih edilmesinin sebepleri web sitesi içeriklerinin metin (text) olması (derin öğrenme yaklaşımı metin sınıflandırmada makine öğrenmesine göre daha başarılı sonuçlar vermektedir) ve derin öğrenmenin öznitelik seçme ve çıkarma işlemlerini kendi başına yapmasıdır. Özellikle son yıllarda Doğal Dil İşleme (NLP) alanında kullanılan, derin öğrenme modeli olan, transformer modelleri yaygınlaşmaya başladı. Bu modellerin, metin sınıflandırmada, geleneksek derin öğrenme modellerine göre daha başarılı sonuçlar elde etmesiyle birlikte transformer modelleri web filtreleme alanında da kullanılmaya başlandı.
REFERANSLAR
[1] F. Demirkıran, A. Çayır, U. Ünal and H. Dağ, "Website Category Classification Using Fine-tuned BERT Language Model," 2020 5th International Conference on Computer Science and Engineering (UBMK), Diyarbakır, Turkey, 2020, pp. 333-336,
[2] R. Rajalakshmi and C. Aravindan, ”Naive bayes approach for website classification,” in Information Technology and Mobile Communication. Springer Berlin Heidelberg, 2011, pp. 323-326.
[3] P. Y. Lee, S. C. Hui and A. C. M. Fong, “A Structural and Content- based Analysis for Web Filtering,” Internet Research: Electronic Net- working Applications and Policy, Vol. 13, No. 1, 2003, pp. 27-37.
[4] R. Du, R. Safavi-Naini, and W. Susilo, “Web Filtering Using Text Classification,” Proc. IEEE Int’l Conf. Networks, pp. 325-330, 2003.
Yorumlar
Yorum Gönder