Robots.txt Dosyasının Temelleri
Robots.txt Nedir?
Robots.txt, web sitelerinin kök dizininde bulunan ve arama motoru botlarına (örümceklerine) belirli sayfalara veya dizinlere erişimi engellemek veya izin vermek için kullanılan bir metin dosyasıdır. Arama motorları, web sitelerini tarayarak içeriği dizine ekler ve kullanıcılar için arama sonuçlarını oluşturur. Robots.txt dosyası, bu tarama işlemi üzerinde kontrol sağlamanıza olanak tanır.
Robots.txt Dosyasının Önemi
SEO (Arama Motoru Optimizasyonu) açısından robots.txt dosyası oldukça önemlidir. Bu dosya sayesinde, arama motorlarının hangi sayfalara erişmesini veya erişmemesini istediğinizi belirleyebilirsiniz. Bu, özellikle sitenizde gizli veya gereksiz içerik varsa önemlidir. Robots.txt dosyası, tarama bütçenizi optimize etmenize ve arama motorlarının daha önemli sayfalara odaklanmasını sağlamanıza yardımcı olabilir.
Robots.txt Dosyasının Yapısı
User-agent: Hangi Botları Hedeflediğinizi Belirleyin
User-agent, belirli bir arama motoru botunu hedeflemek için kullanılır. *
işareti kullanılarak tüm botlar hedeflenebilir. Örneğin:
User-agent: *
Bu, tüm arama motoru botlarına yönelik bir direktiftir. Ancak, belirli bir botu hedeflemek istiyorsanız, botun adını kullanmalısınız:
User-agent: Googlebot
Disallow: Erişimi Engelleme
Disallow direktifi, belirtilen dizine veya sayfaya erişimi engellemek için kullanılır. Örneğin:
Disallow: /private/
Bu, /private/
dizinine erişimi engeller. Belirli bir sayfayı engellemek için:
Disallow: /secret-page.html
Allow: Erişime İzin Verme
Allow direktifi, engellenmiş bir dizin veya sayfa içindeki belirli sayfalara erişimi izin vermek için kullanılır. Örneğin:
Disallow: /private/
Allow: /private/public-page.html
Bu örnekte, /private/
dizini engellenmiş, ancak public-page.html
sayfasına erişime izin verilmiştir.
Sitemap: Site Haritasını Belirtme
Sitemap direktifi, site haritasının yerini belirtmek için kullanılır. Arama motorları, site haritasını tarayarak sitenizin yapısını daha iyi anlayabilir ve tüm sayfaları daha verimli bir şekilde dizine ekleyebilir. Örneğin:
Sitemap: https://www.example.com/sitemap.xml
Bu, arama motorlarına site haritasının yerini gösterir.
Robots.txt Dosyasının Oluşturulması
Metin Düzenleyici Kullanın
Robots.txt dosyasını oluşturmak için herhangi bir metin düzenleyiciyi (Notepad, Sublime Text, VS Code, vb.) kullanabilirsiniz. Metin düzenleyicinizi açın ve robots.txt dosyanızda yer alacak direktifleri yazmaya başlayın.
Kuralları Yazın
Arama motoru botlarının sitenizi nasıl taraması gerektiğini belirten kuralları yazın. Her bir kural, User-agent, Disallow, Allow ve Sitemap direktiflerini içerebilir. Örneğin:
User-agent: *
Disallow: /admin/
Allow: /admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml
Dosyayı Kaydedin
Dosyayı robots.txt
olarak adlandırın ve UTF-8 formatında kaydedin. Bu, dosyanın doğru şekilde okunmasını ve yorumlanmasını sağlar.
Dosyayı Kök Dizinine Yükleyin
Dosyayı web sitenizin kök dizinine (genellikle public_html veya www klasörü) yükleyin. Robots.txt dosyasının URL’si şu şekilde olmalıdır: https://www.example.com/robots.txt
Örnek robots.txt Dosyaları
Basit Bir robots.txt Dosyası
User-agent: *
Disallow: /private/
Bu basit örnekte, tüm botlar hedeflenmiş ve /private/
dizinine erişim engellenmiştir.
İleri Seviye Bir robots.txt Dosyası
User-agent: *
Disallow: /private/
Allow: /private/public-page.html
Disallow: /tmp/
Disallow: /backup/
Sitemap: https://www.example.com/sitemap.xml
User-agent: Googlebot
Disallow: /no-google/
Bu örnekte, tüm botlar için /private/
, /tmp/
ve /backup/
dizinleri engellenmiş, ancak /private/public-page.html
sayfasına erişim izin verilmiştir. Ayrıca, Googlebot için özel bir kural eklenmiş ve /no-google/
dizinine erişim engellenmiştir.
Robots.txt Dosyasının Kullanımı
Gizli İçeriği Koruma
Web sitenizde gizli veya hassas içerik varsa, bu içeriklerin arama motorları tarafından taranmasını ve dizine eklenmesini istemeyebilirsiniz. Örneğin, yönetim panelleri, kullanıcı bilgileri veya geçici dosyalar gibi içerikler taranmamalıdır. Bu tür içerikleri korumak için robots.txt dosyasını kullanabilirsiniz:
User-agent: *
Disallow: /admin/
Disallow: /user-data/
Disallow: /tmp/
Yinelenen İçeriği Engelleme
Yinelenen içerik, SEO açısından zararlıdır çünkü arama motorları aynı içeriği birden fazla URL’de bulduğunda, hangi URL’nin daha önemli olduğunu belirlemekte zorlanabilir. Bu durumu önlemek için robots.txt dosyasını kullanarak yinelenen içeriği engelleyebilirsiniz:
User-agent: *
Disallow: /old-version/
Disallow: /duplicate-page.html
Tarama Bütçesini Optimize Etme
Arama motorları, sitenizi tararken belirli bir tarama bütçesi kullanır. Bu bütçe, sitenizin büyüklüğüne ve güncellenme sıklığına bağlı olarak değişir. Robots.txt dosyasını kullanarak, arama motorlarının daha önemli sayfalara odaklanmasını sağlayabilir ve tarama bütçesini optimize edebilirsiniz:
User-agent: *
Disallow: /less-important-page.html
Disallow: /archive/
Özel Botlar İçin Kurallar
Bazı durumlarda, belirli arama motoru botlarına özel kurallar uygulamak isteyebilirsiniz. Örneğin, Googlebot için farklı, Bingbot için farklı kurallar tanımlayabilirsiniz:
User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/
Site Haritasını Belirtme
Site haritası, arama motorlarının sitenizin yapısını anlamasına ve tüm sayfaları daha verimli bir şekilde dizine eklemesine yardımcı olur. Robots.txt dosyasına site haritasının yerini ekleyerek arama motorlarına bu bilgiyi sağlayabilirsiniz:
Sitemap: https://www.example.com/sitemap.xml
Robots.txt Dosyasının Sınırları
Robots.txt Dosyasının Güvenlik Amaçlı Kullanımı
Robots.txt dosyası, arama motorlarına önerilerde bulunur, ancak bu dosya güvenlik amacıyla kullanılmamalıdır. Dosya, herkes tarafından erişilebilir olduğu için gizli bilgileri korumak için uygun değildir. Gizli bilgileri korumak için daha güçlü güvenlik önlemleri alınmalıdır.
Arama Motoru Botlarının Kurallara Uyumu
Arama motoru botları genellikle robots.txt dosyasındaki kurallara uyarlar, ancak bu kurallar zorunlu değildir. Bazı kötü niyetli botlar, robots.txt dosyasındaki kuralları görmezden gelebilir. Bu nedenle, hassas bilgileri korumak için ek güvenlik önlemleri alınmalıdır.
Robots.txt Dosyasının Boyut ve Karmaşıklık Sınırları
Robots.txt dosyasının boyutu ve karmaşıklığı sınırlıdır. Çok büyük ve karmaşık dosyalar, arama motorlarının dosyayı doğru şekilde yorumlamasını zorlaştırabilir. Bu nedenle, robots.txt dosyanızı mümkün olduğunca basit ve anlaşılır tutmanız önerilir.
kod Dosyasının Test Edilmesi ve Doğrulanması
Google Search Console Kullanımı
Google Search Console, robots.txt dosyanızı test etmek ve doğrulamak için kullanabileceğiniz bir araçtır. Bu araç, robots.txt dosyanızın doğru şekilde çalışıp çalışmadığını kontrol etmenize olanak tanır. Google Search Console’a giriş yapın ve “robots.txt Test Aracı”nı kullanarak dosyanızı test edin.
Diğer Araçlar
Google Search Console dışında, robots.txt dosyanızı test etmek için kullanabileceğiniz diğer araçlar da vardır. Örneğin, Screaming Frog SEO Spider veya Ahrefs gibi SEO araçları, robots.txt dosyanızın doğruluğunu kontrol etmenize yardımcı olacaktır.