Her Yönüyle Robots.txt

Her Yönüyle Robots.txt

Robots.txt dosyası nedir? Nasıl oluşur? Ne işe yarar? Robots’un İşlevleri nelerdir gibi soruları kafanızdan siliyoruz. Robots.txt dosyası, bir arama motoruna web sitenizde nereye gidebileceğini ve yapamayacağını söylemenin başlıca yollarından biridir. Tüm büyük arama motorları sunduğu temel işlevleri destekler. Birkaç arama motorunun kullandığı ekstra kurallar da vardır, bunlar da yararlı olabilir. Bu kılavuz, web siteniz için robots.txt’in tüm kullanımlarını kapsar. Ne kadar basit bir görünüm verse de robots.txt dosyanızdaki bir hata yapmak siteye ciddi zarar verebilir; bu nedenle bu konuyu okuyup anladığınızdan emin olun. İşe Robots.txt ‘nin ne olduğuna dair bilgi vererek başlayalım.

Robots.txt dosyası nedir?

Bir robots.txt dosyası, sıkı bir sözdizimini takiben bir metin dosyasıdır. Arama motoru örümcekleri tarafından okunacak. Sözdizimi yalnızca bilgisayar tarafından okunabilir olması nedeniyle sıkıdır. Bu robotlar tarafından arası diye bir kavram yoktur, Yazılımda teknolojide de böyledir bir şey 1 ya da 0. Ya olur ya olmaz tarzında.

Robots.txt dosyası, “Robots Exclusion Protocol” olarak da adlandırılır; erken arama motoru örümcek geliştiricileri arasında fikir birliğinin bir sonucudur. Herhangi bir standart organizasyonu tarafından resmi bir standart değildir, ancak tüm büyük arama motorları buna bağlıdır.

Ne işe yarar?

Arama motorları sayfaları örümcekler tarafından web’de dizine eklenir. A sitesinden B sitesine ve C sitesine gitmek için bağlantıları takip ediyorlar vb. Bir arama motoru daha önce karşılaşmadığı herhangi bir sayfayı örümceklerden önce robots.txt alanlarında açar. Robots.txt dosyası, sitenin hangi URL’lerin dizine eklenmesine izin verdiğini arama motoruna bildirir.

Bir arama motoru, robots.txt içeriğini önbelleğe alır, ancak genellikle günde birkaç kez yenilenir. Dolayısıyla değişiklikler oldukça hızlı bir şekilde yansıtılacaktır.

Robots.txt dosyamı nereye koymalıyım?

Robots.txt dosyası her zaman alan adınızın kökünde olmalıdır. Alanınız www.siteadi.com ise, http://www.siteadi.com/robots.txt adresinde bulunması gerekir. Dikkat et: alanınız www olmadan yanıt veriyorsa. Ayrıca, aynı robots.txt dosyasına sahip olduğundan emin olun! Aynı şey http ve https için de geçerlidir.

Örnek  

http://www.siteadi.com/robots.txt

https://www.siteadi.com/robots.txt
Ayrıca, robots.txt dosyanıza gerçekten robots.txt adı verilmesi çok önemlidir. Ad, büyük küçük harf duyarlıdır. İçinde hata yapmayın, aksi takdirde iyi olur

Robots.txt ‘nin İşlevleri

*Her site, bir arama motoru örümceklerinin o sitede kaç sayfa tarayacağı konusunda birkaç “link” içeriyor; Sitenizin bölümlerini arama motoru örümcekleri engelleyerek, tarama bütçenizin diğer bölümler için kullanılmasına izin verilir. Özellikle çok sayıda SEO tarafından temizlenmesi gereken sitelerde, ilk önce hızla arama motorlarını birkaç bölüm taramasını engellemek çok yararlı olabilir.

*Robots.txt dosyasını kullanarak bir örümceğe sitenizde nereye gidemeyeceğini söyleyebilirsiniz. Bir arama motoruna, hangi URL’leri arama sonuçlarında gösteremeyeceğini söyleyemezsiniz. Bu, bir arama motorunun bir URL’yi taramasına izin vermediği anlamına gelir – bunu “engelleme” olarak adlandırmak, URL’nin arama sonuçlarında görünmeyeceği anlamına gelmez. Arama motoru, bu URL’ye yeterli sayıda bağlantı bulursa, bu URL’yi içerecek, yalnızca o sayfada ne olduğunu bilmeyecektir. Wordpress kullanıcıları genelde admin sayfalarının indexlenmesini istemezler. Bu yönteme bir örnektir.

Bir sayfanın arama sonuçlarında görünmesini engellemek istiyorsanız, meta robots noindex etiketi kullanmanız gerekir. Bu, arama motorunun o sayfayı dizine ekleyebilmesi ve noindex etiketini bulabilmesi gerektiği anlamına gelir; dolayısıyla sayfa robots.txt tarafından engellenmemelidir.

Robots.txt Yapısı

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow:

User-agent: bingbot

Disallow: /not-for-bing/

Allow ve  Disallow gibi yönergeler büyük / küçük harfe duyarlı olmamalı; bu nedenle onları küçük harf yazıp yazmanıza gerek yoksa büyük harfle yazmaya karar verin. Değerler büyük / küçük harfe duyarlıdır, ancak / fotoğraf / Fotograf aynı değildir. / Fotograf /. Dosyadaki okunabilirlik uğruna direktifleri büyük harfle yazmak isteriz.

User –Agent   Formatı

Search engineFieldUser-agent
BaiduGeneralbaiduspider
BaiduImagesbaiduspider-image
BaiduMobilebaiduspider-mobile
BaiduNewsbaiduspider-news
BaiduVideobaiduspider-video
BingGeneralbingbot
BingGeneralmsnbot
BingImages & Videomsnbot-media
BingAdsadidxbot
GoogleGeneralGooglebot
GoogleImagesGooglebot-Image
GoogleMobileGooglebot-Mobile
GoogleNewsGooglebot-News
GoogleVideoGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!Generalslurp
YandexGeneralyandex
   

DisAllow Nedir?

Sitemizdeki kimselerin görmesini istemediğimiz  klasörlerin  gösterilmesini engelleyen bir yönergedir. Daha bilimsel bir şekilde ifade etmek gerekirse  belirtilen örümceğin erişemediği sitenin bölümlerini belirten bu satırlardan birine veya birkaçına sahip olabilirsiniz. Boş bir İzin vermeme satırı, hiçbir şeye izin vermiyorsanız, temel olarak örümceğin sitenizin tüm bölümlerine erişebileceği anlamına gelir.

User-agent: googlebotDisallow: /resimlerim

Gördüğünüz üzere sitedeki  /resimlerim kısmına erişimi engellemiş bulunuyoruz. Google botları bu sayfaya ulaşamayacak ve arama motorları tarafından indexlenemeyecektir.

Allow Nedir?

Sitede arama motorlarının ulaşmasına izin verdiğimiz dosyalara diyebiliriz. Bu yönergeler Google gibi arama motorları tarafından gerçekleşir. Aşağıdaki örnekteki gibi /wp-admin/ klasörüne ulaşılmasına izin vermiyoruz ancak admin-ajax  noktasına erişim sağlıyoruz.

Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.php

Noindex Nedir?

Az bilinen direktiflerden biri olan Google, aslında noindex yönergesini desteklemektedir. Bunun çok tehlikeli bir şey olduğunu düşünüyoruz. Bir sayfayı arama sonuçlarının dışında tutmak isterseniz, genellikle bunun için iyi bir nedeniniz olur. Bu sayfayı yalnızca Google’dan uzak tutacak şekilde engelleme yöntemini kullanmak, bu sayfaları diğer arama motorları için açık bıraktığınız anlamına gelir. Ancak, tarama bütçenizi iyileştirmek için çalışıyorsanız, robots.txt dosyanızın belirli bir Googlebot kullanıcı aracısı için çok yararlı olabilir. Noindex’in resmi olarak Google tarafından desteklenmediğini, dolayısıyla şu an çalıştığı halde bir noktada olmayabilir.

Test aşamasına geldik. Robots.txt dosyanızı bu anlattıklarımızdan sonra kesinlikle doğrulayınız. Hatalarınızı düzeltmemiz için bize ulaşınız.

Robots.Txt Doğrulaması

Google Search Console tarafından robots.txt dosyanızı doğrulamanıza yardımcı olabilecek çeşitli araçlar var, ancak tarama yönergelerini doğrulamak söz konusu olduğunda, kaynağa gitmekten hoşlanıyor. Google’ın, Google Arama Konsolu’nda (Tarama menüsünün altında) bir robots.txt test aracı vardır ve aşağıdakileri kullanmanızı öneririz:
robots

Yorum yapın