Bienvenue, Invité
Merci de vous identifier ou de vous inscrire.    Mot de passe perdu?

Robot.txt et magento
(1 lecteur(s)) (1) Invité(s)
Aller en basPage: 12
SUJET:

Robot.txt et magento

#9291
Geronimo
Platinum Boarder
Messages: 807
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur

Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 3  
Bonjour

Avez vous mis un fichier robots.txt à la racine de votre site ?

Quel est le meilleur contenu pour un fichier robots.txt sous Magento ? Avez vous des exemples concrets ?
 
Dernière édition: 22/02/09 à  20:45 Par Geronimo.
L'administrateur a désactivé l'accès public en écriture.
#9293
Gabriiiel
I love Magento.
Expert Magento
Messages: 4101
graph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur
Sexe: Masculin gabriel.bouhatous Formation Magento gabriel.bouhatous Ask me :) Lieu: Paris

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 109  
Code :

Disallow: /shop/index.php/ 
Disallow: /*.js$ 
Disallow: /*.css$ 
Disallow: /checkout/ 
Disallow: /tag/ 
Disallow: /catalogsearch/ 
Disallow: /review/ 
Disallow: /app/ 
Disallow: /downloader/ 
Disallow: /js/ 
Disallow: /lib/ 
Disallow: /media/ 
Disallow: /*.php$ 
Disallow: /pkginfo/ 
Disallow: /report/ 
Disallow: /skin/ 
Disallow: /var/ 
Disallow: /catalog/ 
Disallow: /customer/ 



A adapter avec codes magasins.
 
Dernière édition: 23/02/09 à  16:45 Par Gabriiiel.
Expert Magento @ The e-Commerce Academy, le centre de référence en formation Magento, conseil et audit
Fragento & Bargento, l'engagement Communautaire
L'administrateur a désactivé l'accès public en écriture.
#9299
Fibo
Platinum Boarder
Messages: 369
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur
Conseil & coaching informatiques Lieu: Marseille

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 3  
1 - Euh... pourquoi

Disallow: /*?

et

Disallow: /*.php$

par exemple /index.php est intéressant (quoi que par ailleurs on puisse discuter sur le plan "canonique")

2 - Si l'on génère une sitemap, ce serait une bonne idée que de mettre dans robots.txt un lien vers la sitemap: ainsi les 4 moteurs GYMA (Google, Yahoo, Microsoft, Ask) trouveront automatiquement la sitemap.
 
L'administrateur a désactivé l'accès public en écriture.
#9306
Boutik Circus
Nicolas Trossat
Platinum Boarder
Messages: 657
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur
Sexe: Masculin boutik-circus Boutik Circus nicolas.trossat@boutik-circus.fr Lieu: Var Date anniversaire: 18/04

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 21  
Voici le mien
User-agent: *
Allow: /
Disallow: /index.php/
Disallow: /checkout/
Disallow: /catalogsearch/advanced/
Disallow: /app/
Disallow: /downloader/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /wishlist/
Disallow: /var/
Disallow: /customer/
Disallow: /contacts/
Disallow: *?SID=
Sitemap: www.ma-boutique.fr/sitemap.xml

Il est un peu moins restrictif que celui de Grabriiiel
 
L'administrateur a désactivé l'accès public en écriture.
#9307
Geronimo
Platinum Boarder
Messages: 807
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 3  
est il intéressant que je rajoute une partie de mon ancien robots.txt à la suite de vos exemples pour empêcher certains users negatifs :

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: Black Hole
Disallow: /

User-agent: Titan
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Cegbfeieh
Disallow: /

User-agent: Roverbot
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: QuepasaCreep
Disallow: /

User-agent: Jetbot
Disallow: /

User-agent: eCatch
Disallow: /

User-agent: DIIbot
Disallow: /

User-agent: psbot
Disallow: /

User-agent: ShopWiki
Disallow: /
 
Dernière édition: 23/02/09 à  14:33 Par Geronimo.
L'administrateur a désactivé l'accès public en écriture.
#9311
Fibo
Platinum Boarder
Messages: 369
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur
Conseil & coaching informatiques Lieu: Marseille

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 3  
Il s'agit là de robots "négatifs" mais "bien élevés", car rien n'empêche un robot de suivre les chemins pour lesquels il est disallowed.

Si l'on veut vraiment protéger l'accès à un répertoire, robots.txt n'est PAS la solution.
On peut envisager un htaccess sélectif (selon l'IP) ou par mot de passe (mais qui alors bloquera tous les robots, y compris les bons)
 
L'administrateur a désactivé l'accès public en écriture.
#9329
Gabriiiel
I love Magento.
Expert Magento
Messages: 4101
graph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur
Sexe: Masculin gabriel.bouhatous Formation Magento gabriel.bouhatous Ask me :) Lieu: Paris

Re:Robot.txt et magento

Il y a 3 Années, 2 Mois
Karma: 109  
En ce qui concerne le robots.txt que j'ai donné je n'en suis pas l'auteur et je le donne à titre tout à fait indicatif.

Sinon, Fibo a tout à fait raison, robots.txt n'est utile qu'avec les gentils robots qui respectent les indications.

Par ailleurs, il faut veiller à ne pas indiquer dans robots.txt un répertoire dont l'accès ne serait pas protégé. Sinon, ça revient à donner une information "privée" tout en disant "mais surtout ne regarde pas"...
 
Expert Magento @ The e-Commerce Academy, le centre de référence en formation Magento, conseil et audit
Fragento & Bargento, l'engagement Communautaire
L'administrateur a désactivé l'accès public en écriture.
#12702
chti59
Expert Boarder
Messages: 124
graphgraph
Personne n'est hors ligne Cliquez ici pour voir le profil de cet utilisateur

Re:Robot.txt et magento

Il y a 3 Années
Karma: 0  
Bonjour à tous

De mon côté dans le robots.txt j'ai mis le disallow: /review/ et après avoir passé 1 heure sur le webmaster tools à copier coller les URL à supprimer et bien 4 jours après elles sont revenues.

Vous êtes certains que Mr Google respecte le robots.txt ???

J'ai ajouter le sitemap comme proposé par Fibo, pour voir, de toute façon cela ne mange pas de pain de le mettre.
 
L'administrateur a désactivé l'accès public en écriture.
Revenir en hautPage: 12
Modérateur: admin, Narno, Gabriiiel, CaPiT