Internet üzerinde çok fazla web sitesi ve web sayfası bulunuyor, bu web siteleri arama motorları tarafından düzenli olarak ziyaret ediliyor ve dizinlere ekleniyor, tabii ki arama motorları için bu işlemleri gerçekleştirmek bir sunucu kaynağı harcaması oluşturuyor.
Kaynağın verimli kullanılması için web sitelerinin sayfaları önceliklendiriliyor, tarama (crawl) işlemi bu önceliklendirmeye göre gerçekleşiyor. Burada tarama bütçesi kavramı devreye giriyor, bu kavramı basit bir şekilde Google botlarının indeksleyebileceği URL sayısı ve tarama sıklığı olarak tanımlayabiliriz.
Eğer web sayfaları paylaşıldığı gün içerisinde Google botları tarafından indekse alınıyorsa tarama bütçesi kavramı çoğu web yöneticileri tarafından endişelenecek bir durum değil. Aynı şekilde web sitesi birkaç binden daha az sayıda URL içeriyorsa Google botları tarafından çoğu zaman etkili bir şekilde taranır.
Arama motoru botları için taranacak sayfaların önceliklendirilmesi büyük URL sayısına sahip web sitelerinde ya da parametre bazında otomatik sayfa üreten web sitelerinde daha önemlidir.
Crawl Budget (tarama bütçesi) kavramını tanımlayan 2 diğer alt kavram;
Crawl rate limit Google botlarının siteyi tarama sayısını ve taramalar arasındaki beklenecek süreyi temsil eder. Birkaç faktöre göre tarama hızı artalabilir veya azalabilir.
Tarama hızı sınırına (Crawl Rate Limit) ulaşılmasa bile tarama talebi olmadığı sürece Google botlarının etkisi düşük olacaktır. Aşağıdaki 2 faktör taranma talebinde önemli rol oynuyor.
İçeriği yenilenen sayfalar botlar için tarama talebi oluşturabilir, yani Google botlarının websitesini ziyaret etmesini tetikleyebilir.
Web sayfalarının tekrar ziyaret edilmesi sayfa üzerindeki yapılan son değişikliklere bağlı. Sayfalardaki değişiklikler yapılandırılmış verilerle (structured data) veya sayfa üzerindeki tarih bilgileriyle belirtilebilir.
Eğer uzun zaman boyunca sayfa üzerinde bir değişiklik yapılmamışsa botlar sayfayı tekrar ziyaret etmeyi gerek görmeyebiliyor. Bu durumun içeriğin veya sayfanın kalitesiyle bir alakası yok, sayfanın ve içeriğin kalitesi gayet iyi olabilir fakat botların sayfayı tekrar ziyaret etmesini gerektirecek bir değişiklik sebebine ihtiyaçları var.
Düşük değere sahip olan ve kalitesiz URL’ler taramayı ve indekse almayı olumsuz etkiler.
Tarama sitelerin arama sonuç sayfalarına (SERP) giriş noktasıdır, verimli bir tarama için Crawl Budget’ı optimize etmek gerekir. Sunucu kaynaklarını boşa harcayan sayfalar tarama bütçesini gereksiz kullanır, botların tarama etkinliklerini düşürürler.
Web sayfaları yayınlandığı gün indeksleniyorsa Crawl Budget tarafında bir sorun olduğu anlamına gelmez.
Not: Yukarıda belirtilen URL sayıları ortalama olarak web sayfalarını sınıflandırmak için temsili değerlerdir, bire bir eşit değerler değildir.
Google web sayfalarını taramak için kaynak ayırırken web sitelerinin popülerliğine, benzersizliğine (kopya içerik olmadan özgün içerik olmasına), içerik kalitesine ve sayfa performansına dikkat ediyor. Crawl Budget’ı artırmak için bu konulara dikkat edin.
Google için taranması uygun olan URL’leri kullanın, Google gereksiz sayfaları sürekli tararsa botlar sitenin geri kalanının taranmaya gerek olmadığına karar verebilir, ayrıca web sitesinin yüklenme performansı da Crawl Budget’ı etkileyen faktörlerden biridir.
Kopya sayfaları ortadan kaldırın ve benzersiz sayfalara odaklanın, canonical etiketi kullanımına dikkat edin.
Site için önemli olan ama indekslenmesine gerek olmayan sayfaları robots.txt üzerinden bloklayın.
Not: Sayfaları bloklamak için noindex etiketi yerine robots.txt dosyasını kullanın, URL’lerin dizine eklenme olasılığını önemli ölçüde azaltır. Noindex etiketi kullanılan sayfalarda Google noindex etiketini gördüğünde durur fakat tarama zamanı boşa harcanmış olur. Robots.txt’yi Google tarafından indekslenmesini hiç istemediğiniz sayfalar için kullanın.
Kaldırılan sayfaların silindiğini belirtmek için 404 veya 410 durum kodunu kullanın.
Soft 404 sayfaları Google botları tarafından taranmaya devam ediyor ve tarama bütçesinden harcıyor.
Search Console üzerindeki Kapsam bölümünden soft 404 hatalarını görüntüleyebilirsiniz.
Google site haritasını düzenli olarak inceliyor, bu yüzden web sitesinde yeni bir sayfa yayınlandığında bu sayfanın site haritasında da yer aldığından emin olun. Site haritasında içeriğin son güncellenme tarihini belirten <lastmod>
etiketini de kullanın.
Çoklu yönlendirme zincirleri taramayı olumsuz etkiliyor, yönlendirme zincirlerini engelleyin.
Sayfalar hızlı yüklenir ve render alırsa Google siteden daha fazla içerik okuyabilir.
Web sayfası taranırken kullanılabilirlik sorunu olup olmadığını Search Console üzerinden takip edin, taramanın daha verimli olması için gereken teknikleri uygulayın.
Search Console üzerinde Ayarlar > Tarama istatistikleri alanından tarama istatistiklerinizi takip edin.
Kısaca özetlemek gerekirse Google kendi sunucu kaynaklarını en verimli şekilde kullanabilmesi için web sayfalarını otoritesine göre bütçelendiriyor ve gereksiz bir şekilde sürekli sayfaları tarayıp kaynak tüketiminin önüne geçmeye çalışıyor.
Kaynak
https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot
https://developers.google.com/search/docs/advanced/crawling/large-site-managing-crawl-budget