探索型ロボット対策

robots.txtがあろうが、directoryを探索していくロボットもある。
WordPressが .htaccessを書き換えて、
http://ssiscirine.perma.jp/ と打てば、TOPページが出るし、
適当に、http://ssiscirine.perma.jp/aaa/aaa.txt と打てば、「おめでとう」と出るけど。
大抵は404エラーが出るようになっている。
これが消えると、404エラーになるし、
http.confでindex構成は表示しないように変更してあるので、簡単には探索できない。
.htaccessの
RewriteEngine On
の後に
RewriteRule ^index\.rdf$ /feed/rdf [L,R=permanent]
を追加してみた。
しかし、
211.13.220.xxx – – [11/Jan/2009:04:52:56 +0900] “GET /index.rdf HTTP/1.1” 301 241  ・・・; http://moe.xxx.jp/)”
の後、反応が無い。
リダイレクトができないようだ。
あれ、ロボット対応になってるなぁ・・・(大笑


さて、当のページを説明を読んでみると、
Last-Modifiedヘッダの取得ができるサイトはそれを、そうでないサイトでは別処理となっています。正しく更新情報が取得できない場合、ゼロまたはチェック日時となってしまっています。
外部から直接リンクできないサイトへは、リダイレクタをはさんでいます。」
と書いてあるので、
.htaccess に
php_flag last_modified on
を入れてみた。


結局、自分で対応しきれなく、MOE ANTENAの中の人に泣き付きました。> < 対応ありがとうございます。



  • メールフォームのポストいただきましてありがとうございます&大変申し訳ありません。
    既存のアンテナの挙動に満足できず、自分がやりたい機能「だけ」を実装したヘタレなスクリプトが出来上がったところでとりあえず満足してしまい、賢いスクリプトにはならずに少々の不具合は随時手作業で対応する状況、robots.txt対応をはじめ不十分な点が多々あり過ぎます……。
    チェック対象を手動で更新しつつ、RSS2.0が読めるようにしてみたつもりですが、いかがでしょうか。
    逆に、コメントいただいたりリンク載せていただいたりしたものの、robotsに従うべきなのかも悩んでしまいました……。

    • すみません。
      robots.txtで
      Disallow: /
      「何も読まないで」ですね。
      単純ミスでした。
      とりあえず、robots.txtをはずしました。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA