クロールバジェット
このブログのアクセス解析を見たら、アンテナサイトやSEO関連でたどり着く人が多いようなので、今回はSEOの用語からクロールバジェットについてまとめてみます。
クロールバジェットとは
一般的には、Googleなどのクローラがサイトを巡回する際の優先度のようなものです。クローラのリソースも無限ではないため、クロール対象のページが多い場合は、重要度が低いページ、更新頻度が低いページなどはクロールされません。ページの重要度はページランク(※)などで判定されます。
※ページランク
ブラウザなどで確認できるページランクではなく、Googleなどが内部で持っているページランクです。
一般向けに公開されているページランクは1年くらい更新されていなく、今後も更新される予定はないようなので参考になりません。
クロールの優先度を上げるには?
優先度はページランクなどで判定されていると思われます。ページランクは外部からリンクされている数などで上がります。最近はコンテンツの質などが重要視されるようになりましたが、未だにこの外部リンク数も重要な要素の一つであることは変わりません。そのため重要度を上げるには、内部SEOより外部SEOの方が効果が高いと思われます。ただし、クローラも賢くなっているので、不自然なリンクやリンク集などからのリンクは評価されません。
優先度の低いサイトはどうすれば
クロールの優先度が低いサイトは、クロールしてもらえるページ数も少ない。そのため、無駄なページや重要度の低いページでクロール数を消費しないように、いかに重要なページをクロールさせるかが重要です。
具体的には以下のような内部SEOが有効
- 重要なページはトップページにリンクする(クローラが辿りやすくする)
- 動的ページの場合はクロールする必要ないパラメータを除外する
- クロールする必要のないページはrobots.txtで指定する
- サイトマップページ、sitemap.xmlを作成する
- 重複ページには「rel=canonical」を指定する
ブログやアンテナサイトは特にページ数が多くなりがちなので、Googleで実際に自サイトを検索してみて、重要なページがちゃんとインデックスされているか確認した方が良いでしょう。 例えばアンテナサイトで一番インデックスして欲しいページは記事ページです。カテゴリやタグの検索結果ページでクロール数を消費して記事が全てインデックスされない場合は、最悪カテゴリ、タグページはインデックスさせないという選択肢もあります。
※パラメータの除外やrobots.txtをよく考えずに設定すると逆効果にもなるので、設定する場合は注意しましょう。
さいごに
Google先生は今も昔も強い人の見方です。リンクも獲得できない影響力のないサイトは相手にしてもらえません。