MARS FINDER 動作仕様
TOP クローラの仕様 検索機能 管理画面
クローラの仕様
クロール時 IPアドレス UserAgent
  • 下記リンク先に記載の、いずれかのIPアドレスにてクロールします。
  • User Agent:"dbot"という文字列を含みます。
    • HTTPリクエストヘッダや、httpdログに記録される文字列です。
  • ユーザーエージェント トークン:marsfinder
    • robots.txt でクローラの識別と制御に使われます。
動的ページのクロール仕様
(Dynamic HTMLではありません)
  • クロール対象となる動的ページ
    • HTTP/HTTPSのGETメソッドでアクセスできる(URL単体でアクセス可能な)動的ページはクロール対象です。
    • HTTP/HTTPSのPOSTメソッドでパラメータを渡す必要がある動的ページはクロール対象外です。
  • 類似ページの除外
    • 動的ページの中には、URLとしては異なっていても、表示されるHTMLは常に同一となるような場合があります。(パラメータ内のセッションID等が異なる場合など。)
      この場合、類似のページが検索結果に表示されないように、データベースから除外します。
  • 注意事項
    • カレンダーが設置されているなど、年月日をパラメータにした横移動リンクが存在するページで、遠い未来や遠い過去の日付のページまで無限に辿れるページ構造になっている場合、クロール処理が所定の時間内に完了しない場合がありますのでご注意ください。
      (リンク階層数の上限制限を行っており無限にクロールすることはありませんが、それでも相当量のURLがクロール対象となることがあります。)
htmlページのキャプチャ仕様
  • キャプチャ用クローラのIPアドレス:クローラのIPアドレスと同じです。
  • キャプチャ用クローラのUserAgent:クローラのUserAgentと同じです。
  • 注意事項:下記のようなページについて、期待と異なるキャプチャとなることがあります。
    • 全体の表示に30秒以上かかるページ
    • Ajaxを使用して動的にレイアウトを行うページ
    • ブラウザのプラグイン(Flash)などを利用しているページ
    • ブラウザを判定し、ページのレイアウトを決定しているページ
管理画面
出力文字エンコーディング UTF-8
認証方式 アプリケーションによる認証
SSLサーバ証明書 マーズフラッグの取得した証明書を使用
検索ログ閲覧の指定可能期間 62日以内