arkadaşlar farklı anlatımlarla robots.txt dosyası :::
Arama motorlarının robotları web sitelerini incelerken ilk olarak bu dosyayı ararlar.
Çünkü bu dosya , robotların hangi sayfaları indexlenip hangilerinin indexlenmeyeceği hakkında yön verir.
Özellikle sitenizdeki bir dosya yada klasörün indexlenmesini istemiyorsanız bu dosya ile belirtebilirsiniz
Robots.txt dosyasını nereye koymalıyım ?
Bu dosyayı FTP 'nizden ana dizine yüklemeniz gerekmektedir.
Robots.txt nasıl kullanılır ?
robotların sitenizin heryerini indexlemesini istiyorsanız ;
User-agent: *
Disallow:
Not: Boş bir robots.txt dosyası da aynı mesajı verecektir.
robotların bazı klasörlerinizi indexlemesini engellemek istiyorsanız;
User-agent: İzin verilen robotlar (* : Bütün Botlara izin verir)
Disallow: İzin verilmeyen klasör yada sayfa adı
User-agent: *
Disallow: /cgi-bin/ (Klasör İsmi)
Disallow: /tmp/ (Klasör İsmi)
Buna bir de sayfa eklemek istiyorsanız;
User-agent: * (Bütün Robotlar)
Disallow: /cgi-bin/ (Klasör İsmi)
Disallow: /tmp/ (Klasör İsmi)
Disallow: /admin/administrator.php (Klasör İsmi/Sayfa İsmi)
bir robotun bu klasörlerinize girmesini engellemek istiyorsanız;
User-agent: WebCrawler (Botun İsmi)
Disallow: /cgi-bin/ (Klasör İsmi)
Disallow: /tmp/ (Klasör İsmi)
bir robotun sitenize girişini engellemek istiyorsanız;
User-agent: BadBot (Botun İsmi)
Disallow: / (Robota İzin Yok)
robots.txt dosyası arama motorları ve örümceklere sitenizdeki dosya ve klasörleri gezip kayıt etmeleri için izin veren ya da engelleyen dosyadır. Dosya kendi başına normal bir text dosyasından farksızdır ve basit şekilde Notepad ile hazırlanabilir. Anasayfanızın ya da sitenizin bulunduğu ana klasöre koyulmalıdır.
Neden robots.txt dosyasına ihtiyaç duyarız?
Tüm önemli arama motorları, sitenize girer girmez öncelikli olarak bir robots.txt dosyası arar. Sitenizin herhangi bir bölümüne, örümceklerin girmesini istemiyorsanız ya da girmelerini engellemek istemiyorsanız bile bir robots.txt dosyası bulundurmak her zaman için yararlıdır. Çünkü bu dosya örümcekler için bir karşılama dosyası, menü gibi görev yapar.
Neden örümcekleri engellemek isteyebilirim?
Site henüz tamamlanmamış olabilir. Ya da henüz tam olarak bitmemiş sayfalar içeriyor olabilir. Ve bu durumda sitenizin ya da sayfalarınızın yarım yamalak kayıt edilmesini istemeyebilirsiniz.
Şifrelemeye gerek duymadığınız ama yine de sizin için özel olan bir içeriğe ya da sitenizde bir bölüme sahip olabilirsiniz ve bunun arama motorları tarafından kayıt edilmesini ve aramalarda çıkmasını istemeyebilirsiniz.
Hata sayfalarının, cgi-bin gibi klasörlerin ya da teşekkür ettiğiniz, içinde sadece "tamam" gibi kısa mesajlar bulundurduğunuz dosya ve klasörlerinizin kayıt edilmesi kimsenin işine yaramayacaktır.
Birbirine benzeyen, geçişli sayfalarınız varsa bütün robotların aynı şeyi kaydetmesini istemeyebilirsiniz. Bu spam riski doğurabilir.
Yer almak istemediğiniz arama motorlarından ya da e-mail toplayan zararlı örümceklerden robots.txt dosyası aracılığıyla kurtulabilirsiniz.
Nasıl Robots.txt dosyası oluşturabilirim diyorsanız !
Eğer sitenizdeki sayfaların tamamının arama motoru veritabanına kaydedilmesini istiyorsanız notepad ile boş bir text dosyası açın ve aşağıdaki leri yazın ;
User-agent: *
Disallow:
Burada User-agent arama motoru örümceğini belirtir. Mesajın hangi arama motoru örümceği için geçerli olduğunu belirtir. Yanındaki * işareti ise tamamı anlamına gelir. Yani User-agent: * komutu, robots.txt dosyasındaki yazılı komutların bütün arama motoru örümcekleri için geçerli olduğunu belirtir. Daha iyi anlamak için Google'nin örümceği olan Googlebot ile MSN arama motoru örümceği olan Msnbot için ayrı ayrı komutlar girelim.
User-agent: Googlebot
Disallow:
User-agent: Msnbot
Disallow: /gizli.html
Yukarıda görüldüğü gibi iki farklı örümceğe farklı görevler verdik. Googlebot'dan sonra gelen disallow bölümü boş oluğu için sitemizin tüm sayfaları google veritabanına kaydedilir. Ancak Msnbot'dan sonra gelen disallow komutuna /gizli.html yazdık. Yani Msnbot sitemize uğradığı zaman gizli.html sayfasına girmeyecek ve bu sayfayı veritabanına eklemeyecek.
Şimdi disallow komutuna daha detaylı bakalım ve bir kaç örnekle bilgilerimizi pekiştirelim. Eğer sayfaların kaydedilmesini engellemek istiyorsak Disallow komutu yanına "/" işareti koyarak sayfanın adını yazmamız gerekir. Eğer bir klasörün içindeki bütün sayfaları engellemek istiyorsak Disallow: /engellenenklasor/ şeklinde komut eklememiz gerekir. Eğer sitenin tamamen kaydedilmesini engellemek istiyorsak disallow komutu yerine sadece "/"koymamız gerekir. Şimdi örneklerle tekrar edelim.
Bir sayfanın kaydedilmemesini istiyorsak:
User-agent: *
Disallow: /gizli.html
Birden fazla sayfanın kaydedilmemesini istiyorsak ek disallow komutu ekleriz:
User-agent: *
Disallow: /gizli.html
Disallow: /sakli.html
Sitenin tamamının kaydedilmemesini istiyorsak:
User-agent: *
Disallow: /
Sitedeki bir klasörün kaydedilmemesini istiyorsak:
User-agent: *
Disallow: /ozelklasor/
Sitemizdeki iki klasör ve bir sayfanın kaydedilmemesini istiyorsak:
User-agent: *
Disallow: /resimlerim/gizliresim.html
Disallow: /projelerim/
Disallow: /ozelklasor/
Şimdi biraz da User-agent komutu ile oynayarak örnekler verelim. Sitemizi msnbot'un kaydetmemesini ama diğer arama motorlarının kaydetmesini sağlayalım:
User-agent: Msnbot
Disallow: /
User-agent: *
Disallow:
Tüm arama motorları sitemizi kaydetsin. Ama Google ile Msn birer klasör kaydetmesin istiyorsak:
User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /gizli/
User-agent: Msnbot
Disallow: /sakli/
Bütün olasılıkları değerlendirerek robots.txt dosyaları oluşturduk. Eğer sitenizde engellemek istediğiniz sayfa veya klasör varsa bu komutlardan uygun olanını kendi sitenize göre ayarlayın ve notepad ile boş bir txt dosyası açarak bu komutları yazın. Daha sonra bu dosyayı sitenizin ana klasörüne yani sitenizdeki index.html sayfasının olduğu klasöre gönderin.
Eğer engellemek istediğiniz sayfa daha önce arama motorları tarafından kaydedildiyse, robots.txt dosyasını gönderdikten bir süre sonra silinecektir. Ama bu süre 1-2 ay gibi bir zaman olabilir.
Arama motoru optimizasyonu (SEO) yaparken en önemli noktalardan biri robots.txt kullanmaktır.
[/SIZE]
Robots.txt dosyasını herhangi bir text editor ya da notepad ile oluşturabilirsiniz. Temelde içeriği şu şekildedir :
User-Agent: [Örümcek ya da Bot ismi]
Disallow: [Klasör ya da Dosya ismi]
Robots.txt ile belirli bir dosyayı belirli bir bottan korumak istiyorsanız ;
"şiirler" diye bir bölüm oluşturdunuz,tamamlanmadan robotların indexlemesini istemiyorsunuz. Bu durumda, hedef tüm robotlar olduğu için özellikle robot ismi belirtmek yerine yıldız işareti "*" kullanmalısınız. Bu tüm robotları kapsayacaktır.
User-Agent: *
Disallow: /şiirler/
Koruduğunuz bölüm isminin başına ve sonuna slah işareti "/" koymanız o klasördeki tüm dosyaları kapsar.
Tüm robotlara kayıt izmi vermek
Hedefimiz yine tüm robotlar olduğu için yıldız "*" işareti kullanarak Disallow bölümünü boş bırakıyoruz.
User-agent: *
Disallow:
Tüm robotları dosya ve klasörlerinizden uzak tutmak
User-agent: *
Disallow: /
Robots.txt ile birden fazla klasör engellemek
Ayarları dikkatli bir şekilde yapmalısınız. Yoksa istemediğiniz dosya ve klasörleri kayıt ettirebilir, istediklerinizi engelleyebilirsiniz. Diyelim ki "cgi-bin" klasörünüzün içindeki bazı dosyaların kayıt edilmesini istemiyorsunuz.
User-agent: *
Disallow: /cgi-bin/
Disallow: /_borders/
Disallow: /_derived/
Disallow: /_fpclass/
Disallow: /_overlay/
Disallow: /_private/
Disallow: /_themes/
Disallow: /_vti_bin/
Disallow: /_vti_cnf/
Disallow: /_vti_log/
Disallow: /_vti_map/
Disallow: /_vti_pvt/
Disallow: /_vti_txt/
Her klasör için ayrı bir komut yazmak gerekiyor.
Sadece Altavista örümceğinin girmesini istemediğimiz klasörümüze, Altavista robotunun ismi olan Scooter ı ekliyoruz.
User-Agent: Scooter
Disallow: /
Google'ın resim dosyalarımızı indexlemesini istemiyorsak ;
User-Agent: Googlebot-Image
Disallow: /images/
Eğer dosyalarınız "images" klasöründe değil ve dağınık olarak değişik yerlerdeyse o zaman :
User-Agent: Googlebot-Image
Disallow: /
Robots.txt Dosyası Ve Ayarları
Google web tarama botlarından sitenizde yer alan klasörlerinizi korumak istiyorsanız robots.txt dosyasını kullanmalısınız. Örneğin bir klasör (örnek olarak seo klasörü olsun) ve içerisinde yer alan tüm dosyalarınızı google botlarından bloklamak için yazmanız gereken kod :
User-agent: Googlebot
Disallow: /seo
Dosya tiplerini bloklamak için : ( Bu kod ile .gif dosyalarını indekslemesin diyoruz google botlarına)
User-agent: Googlebot
Disallow: /*.gif$
Dinamik web sayfalarını bloklamak için :
User-agent: Googlebot
Disallow: /*?
Ayrıca indexlenmesini istemediğiniz tekil sayfalar varsa metatag bölümüne aşağıdaki kodu ekleyerek botların o sayfayı indekslemesini önleyebilirsiniz :
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />
Önemli Not : robots.txt dosyanızı sadece root klasörünüze atmalısınız. Alt klasörlere koymamalısınız! Tekil dosyalar için yukarıdaki metatagı kullanmanız faydalı olacaktır. Eğer robots.txt kullanmazsanız google botları varsayılan olarak sitenize ulaşabildiği (linklenmiş) tüm sayfa ve klasörleri indeksleyecektir.
Siteme erişimi kontrol etmek için robots.txt dosyası kullanabilir miyim ?
robots.txt dosyası, web'de tarama yapan arama motoru robotlarına ("bot" olarak bilinir) kısıtlama getirir. Bu botlar otomatiktir ve bir sitenin sayfalarına erişmeden önce belirli sayfalara erişmelerini önleyen bir robots.txt dosyası olup olmadığını kontrol ederler.
Yalnızca sitenizde arama motorlarının dizine eklemesini istemediğiniz içerik varsa robots.txt dosyası gerekir. Arama motorlarının sitenizdeki her şeyi dizine eklemesini istiyorsanız robots.txt dosyasına (boş olanına bile) ihtiyacınız yoktur.
Alıntı