Robots.txt Dosyası ve Etiketleri
Haziran 14, 2008 tarihinde SEO-Arama Motorları kategorisine eklendi | Yorum yok
Uzun bir süredir karıştırdığım, taylanaktepe.com adresimi de denek olarak kullandığım robots.txt dosyası ve ilgili <meta> etiketleri konusunda nihayet mutlu sona ulaştım. Yani konuyu anladım ve tehlikeli olabilecek bir çok denemelerini bizzat yaptım. Başlıyoruz!
Öncelikle robots.text dosyası veya yerine kullanabileceğiniz <meta> etiketleri ne işe yarar? Sorudan da anlaşıldığı üzere iki farklı alternatif mevcut, robots.txt isimli bir dosya yaratarak bunu dizininize atabilirsiniz veya <head> </head> etiketleriniz arasında bir <meta> etiketi oluşturabilirsiniz. Ne kullandığınız amaç için çok da önemli değil, her iki işleminde amacı; sitenize arama motorlarının ulaşması, listelemesi, çıkış bağlantılarınızı dikkate almaması vs… gibi ayrıntıları düzenlemeye yardımcı olmaktır. Bu tür bir işlem neden gereklidir? Amaç şu; bazı siteler arama motorları tarafından sayfalarının listelenmemesini isteyebilir, yine dizininizdeki bazı klasörlere arama motorlarının ulaşmasını veya listelemesini istemeyebilirsiniz, son olarak sitenizden vermiş olduğunuz çıkış bağlantılarının takip edilmemesini isteyebilirsiniz.
Kullanılan <meta> etiketlerinden örneklerle konuyu açalım, örnek <meta> etiketleri sayfanızda <head> <head> etiketleri arasına yazılacak;
Tüm arama motorlarının sayfalarınızı listelememesi için aşağıdaki etiketi kullanmalısınız:
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
Sayfalarınızın sadece Google tarafından listelenmemesini de isteyebilirsiniz:
<META NAME=”GOOGLEBOT” CONTENT=”NOINDEX, NOFOLLOW”>
Yine sayfalarınızda bulunan bağlantıları arama motorlarının takip etmemesini sağlamak için:
<META NAME=”ROBOTS” CONTENT=”NOFOLLOW”>
Bu işlemlerin farklı versiyonları ise:
<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX, NOFOLLOW”>
Son olarak arama motorlarının resim dosyalarınızı listelememesini isteyebilirsiniz:
<META NAME=”ROBOTS” CONTENT=”NOIMAGEINDEX”>
Bu işlemlerin benzerlerini bir robots.txt dosyası oluşturarak da yapmak mümkün, hatta biraz daha detaya inerek. Öncelikle robots.txt dosyasını nerede oluşturacaksınız sorusuna cevap verelim; dosya ana dizininizde bulunacak, arama motorları bu dosyaları otomatik olarak tanıyacak ve okuyacaktır. Örnek;
http://www.alanadiniz.com/robots.txt —> doğru
http://www.alanadiniz.com/klasor/robots.txt —> yanlış
Diğer bir soru ise dosyayı nasıl oluşturacaksınız; tercih ettiğiniz bir text editörü kullanarak yeni bir sayfa oluşturun ve bu dosyaya robots.txt adını verin.
robots.txt —> doğru
Robots.txt —> yanlış
ROBOTS.txt —> yanlış
ROBOTS.TXT —> yanlış
Bu dosyanın içinde neler olacak; robots.txt dosyasında iki temel komut kullanılır.
- User-agent: —> arama motorlarının dosyada arayacağı komuttur. Yani doğru yerdedir.
- Disallow: —> bu komutlada engellemek istediğimizi belirtiriz. Yani bu sitenin sayfalarını listeleme!
- Allow —> bu komutta bazı kaynaklarda arama motorlarının sayfalarınızı listelemesine izin verdiğiniz şeklide yorumlanabilir. Bu nokta gerçekten önemli! Bu komutu eklediğiniz halde, ki Google ile denenmiştir, arama motoru sitenizi listelemeyebilir. Bu noktayı şöyle açıklayalım;
ÖNEMLİ! Şayet sayfalarınız arama motorlarınca listelensin, bağlantılarınız takip edilsin diyorsanız, <meta> etiketlerini ve robots.txt dosyasını kullanmamalısınız. Hatta bu dosya boş dahi olsa dizininizde bulundurmayınız.
Şimdi örnek bir robots.txt dosyası yazalım. Şayet site sayfalarınızın arama motorlarınca listelenmesini istemiyorsanız:
User-agent:
Disallow: /
Yada bazı dosya veya klasörlerinizin listelenmesini istemiyorsanız:
User-agent:
Disallow: /klasor_adi/
dosyalar için;
User-agent:
Disallow: /dosya_adi.html
Bunların dışında robots.txt dosyasını kullanarak sadece istediğiniz arama motorlarınıda engelleyebilirsiniz:
tüm arama motorları için;
User-agent: *
Disallow: /
Google için;
User-agent: Googlebot
Disallow:
Yine benzer bir işlem ile Googlebot u engelleyip, sadece Google-Mobile için izin verebilirsiniz:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /
Farklı bir kullanım ile, Googlebot u engelleyip Msnbot tan ise bir dosyayı gizleyebilirsiniz, yani kendinize göre bu mantıkla birçok varyasyon yaratabilirsiniz.
User-agent: Googlebot
Disallow:
User-agent: Msnbot
Disallow: /dosya_.html
——————————————————————–
User-agent: *
Disallow: /dosya_adi.html
——————————————————————–
User-agent: Msnbot
Disallow: /
User-agent: *
Disallow:
——————————————————————–
User-agent: Googlebot-Image
Disallow: /resimlerim/
——————————————————————–
User-agent: Googlebot
Disallow: /*.gif$ —> .gif dosyalar için örnek
User-agent: Googlebot
Disallow: /*? —> ? ile başlayan bağlantılarınız için
robots.txt dosyanızı nasıl test edebilirsiniz:
Google için bu işlemi Google hesabınızla giriş yaptığınız “Site Yöneticisi Araçları” bölümünden, “Araçlar/robots.txt dosyasını analiz edin” menüsünden,
MSN Live Search için ise (http://www.live.com/), MSN hesabınızla “Webmaster Tools” bölümüne giriş yapıp, “Tools/Validate robots.txt” menüsünden kontrol edebilirsiniz.
Bu konuda son bir ayrıntı ise, wordpress ve eklentilerinden birisi olan google-sitemap eklentisi kullanıcılarını ilgilendiriyor. Her nedense bu eklentinin kurulumunun ardından sayfalarımın listelenmesi düşüşe geçti. Bu durum robots.txt ile de düzeltilemiyor. Yani:
User-agent: *
Disallow: /sitemap.xml
şeklindeki komut dahi işe yaramıyor ve diğer tüm robots.txt komutları için hata mesajı alınıyor. Özellikle Google site haritasındaki bağlantılara ulaşamıyor! Şuan üzerine çalıştığım konulardan bir tanesi de bu, diğeri ise DOFOLLOW.
Bu konuda bilgisi olanlar yorumlarda paylaşırsa sevininirim, yanlış bir uygulamada yapmış olabilirim!
Bu yazının Popülerliği: 41% [?]
Yorum Yapın