Arama motoru tarayıcılarının web sitelerinde hangi sayfalara erişebileceklerini belirlemek için robots.txt dosyası kullanılır.
Herhangi bir editör (Notepad, Sublime Text, Visual Studio Code…) üzerinde robots.txt dosyasını oluşturabilirsiniz.
Kurallar botlara sitenin hangi alanlarının taranabileceğini söyler, aşağıdaki maddelerde robots.txt kuralları hakkındaki yönergeleri inceleyin.
user-agent
satırı ile başlayarak grubun hedefini belirler.user-agent
)User-agent
bir kural kümesiyle eşleşir. Eğer birden fazla aynı user-agent
kuralına sahip grup varsa işleme başlamadan önce bu gruplar birleştirilerek tek bir grupmuş gibi taranır.disallow
kuralı ile engellenmeyen herhangi bir sayfa veya dizin botlar tarafından taranır.disallow: /file.html
kuralı https://example.com/file.html
için geçerlidir ama https://example.com/FILE.html
için geçerli değildir.#
işareti gelen satırlar yorum satırlarıdır, yorum satırları dikkate alınmaz.user-agent:
Robots.txt dosyası içerisinde kesin olarak bir veya birden fazla grup için bulunması gereken bir kuraldır. Sitenin taranması için kabul edeceği botları onaylar. Yıldız (*) karakteri kullanıldığında çeşitli AdsBot botları dışında tüm arama motoru botlarını kabul eder.# Tüm botlar için /tags/ dizini engellendi.
User-agent: *
Disallow: /tags/
# Googlebot ve Adsbot-Google tarayıcıları engellendi.
User-agent: Googlebot
User-agent: Adsbot-Google
Disallow: /
# Googlebot için /tags/ dizini engellendi.
User-agent: Googlebot
Disallow: /tags/
# Bingbot için tüm sayfalar taranmaya açık.
User-agent: Bingbot
# Twitterbot için tüm sayfalar engellendi.
User-agent: Twitterbot
Disallow: /
disallow:
User-agent’in taramasını istenilmeyen sayfa, dizin ve doğrudan sitenin tamamı belirtilebilir. Eğer bir sayfa engellenmek isteniyorsa, sayfanın tam adresi kullanılmalıdır. Eğer bir dizin belirtilecekse “/” karakteri ile başlayıp “/” karakteri ile bitirilmelidir.# /en/ dizini ve https://juniortoexpert.com/de/externes-ressourcen-link-element/ sayfası engellendi.
User-agent *
Disallow: /en/
Disallow: https://juniortoexpert.com/de/externes-ressourcen-link-element/
allow:
Allow kuralı bir veya birden fazla satırda kullanılabilir. Domain ismi, dizin ve doğrudan sayfanın ismi belirtilerek arama motoru botlarına belirtilen sayfa için izin verilebilir. Bu kural disallow
kuralını ezmek için kullanılır, örnek olarak taranması engellenmiş bir dizin altında bulunan bir sayfanın taranması isteniyorsa allow
kuralı kullanılarak bu sayfanın taranmasına izin verilir. Tek bir sayfa belirtilecekse sayfanın domainden sonraki gelen URL uzantısını belirtin. Eğer bir dizin belirtilecekse “/” karakteri ile başlayıp “/” karakteri ile bitirilmelidir.# /en/ dizini tamamen engellenmişken allow kuralı ile https://juniortoexpert.com/en/html-script-tag/ sayfasının taranmasına izin verildi.
User-agent: *
Disallow: /en/
Allow: https://juniortoexpert.com/en/html-script-tag/
sitemap:
Robots.txt üzerinde site haritasını belirtmek için kullanılır. Opsiyonel olarak hiç kullanılmayabilir veya birden fazla satırda farklı site haritaları belirtilebilir.# Sitemap kuralı birden fazla satırda farklı site haritalarını belirtmek için kullanılabilir.
Sitemap: https://juniortoexpert.com/post-sitemap.xml
Sitemap: https://juniortoexpert.com/page-sitemap.xml
Sitemap: https://juniortoexpert.com/category-sitemap.xml
Web sitesine yüklenmiş robots.txt dosyası arama motoru botları tarafından otomatik olarak bulunur, herhangi bir ek çalışma yapılmasına gerek yoktur.
Kaynak:
https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt