【閲覧注意】「クロールバジェット」という言葉について
※本記事は、2014年公開当時の情報を基にした記事です。
何やら「クロールバジェット」という言葉が最近お客様の一般的に使われているのを聞くということで先週くらいに社内でちょいちょい話題になっていました。
※最後に追記あり、むしろそちらを見て下さい、、
目次
クロールバジェット(Crawl Budget)って何ですか
簡単に言うと、「このサイトは1日あたりこれくらいクロールしますよ」という上限値(Budget)をPageRankなどの指標を元にGoogleが割り当てており、このバジェットが低いとサイトが十分にクロールされません、みたいな雰囲気で使われる言葉です。
耳慣れない方には耳慣れないと思います。かくいう自分も業務上使ったことはないですしそんなに話題になることもありません。たまに海外のフォーラムなどで話題になっていることはありますね。
で、そもそもGoogleの公式で出ている言葉でしたっけと思って英語圏の公式サイト巡ってみましたが現時点ではGoogleの公式情報では確認できていません。Googleの技術的な用語というよりも便利な造語という捉え方をした方が良いかもしれません。
諸情報によると以前行われたWeb系のイベントでGoogleの方が「(クロールバジェットという概念は)Googleには存在しない」と発言もされていたようでして。ということで、まあ言葉としてはなかなか曖昧なものとして捉えておいて良いのかなと考えています。
で、言葉の説明についてはそれくらいにしまして、ここから本題。
あろうがなかろうが、考え方としては重要
仮にクロールバジェットなるものが存在するとした場合、単純に考慮すべきポイントは以下です。
・より多くのクロールバジェットを確保するためには多くのリンク(=高いPageRankやAuthority)を得ていることが重要
・クロールリソースは無限ではないので、無駄遣いさせない工夫が必要
そしてこれはクロールバジェットなるものがあろうとなかろうと、とても大きなサイトを運営している方にとっては非常に重要なSEOの要素だと認識しています。
クロール絶対量を増やしてサイトを十分にクロールさせる
ページがクロールされるのはクローラーがリンクを辿る中でURLを発見できるからであり、ほとんどリンクを得られていないページと多くのサイトからリンクをされているページでは後者の方がクロール対象になる確率は高くなります。
全体のクロールリソースが一定だとすれば、クロール対象になる確率が高い(=クロール中にリンクURLが発見される機会が多い)ということはクロールされる絶対量が増えるということです。
つまりクロールの絶対量を増やすのであれば、より多くのリンクを獲得することがそれに直結すると考えて良いでしょう。これはクロールバジェットの考え方と相反することはありませんね。
注意:SEOにおいてリンクを軽視する傾向はダメ
話題がそれるので別途まとめようと思いますが、コンテンツ重視の流れになってきているなか、逆にリンクが軽視されつつあるように思います。これは全くもってダメな流れと思います。
誤解を恐れずに言いますと、今のGoogleはまだまだ“Link is King”を否定できない検索結果です。すなわち今のSEOにおける最重要業務の一つは以前と変わらずリンクを獲得することと断言して良いと思っています。
変わってきているのは、そのプロセスとして人工的な簡易サイトからリンクをもらって順位を上げるような旧来の施策がGoogleには淘汰されつつあり、その分なおさらコンテンツやプロモーションによってリンクを構築していくことが重要になっている、という話です。
リソースを無駄遣いさせないための工夫
仮にクロールリソースが有限だとした場合、全てのURLが確実にクロールされる保証はありません。従って、不要なページにリソースが割かれないよう、重要なページのクロールに集中させる工夫が必要です。
それは例えば無駄な重複コンテンツを発生させない仕組み、理論上URLが無限に生成される仕組みが存在するのであれば運営側でのコントロール、(本当に)クロール不要なコンテンツへのrobots.txtなどの制御、などです。
少なくとも、例えば全くリンクも得られていなくてクロールされる絶対量が十分でないのに、本来クロール不要なコンテンツばかりクローラーがたどっているといった状態は避けるべきでしょう。
注意:不適切なクロール制御は単なる逆効果
クロールを制御することはコンテンツの認識に大きく影響する施策です。テクニカルな意図でrobots.txtを乱用するとかnofollow埋め込みまくるなどは基本的にはほとんどのサイトで考えなくて良いはずです。
あくまでも「クロール不要なURL」とか「制御しきれないほどの大量の重複コンテンツや空ページ量産」などへの制御を場合によっては検討する、レベルで十分と思います。
単純な絶対量(Budget)の割り当て、というよりもクロールされる確率と優先度の問題かなと思いますがどうなんでしょうか
見出しの通りなのですが。絶対量ではなくて「URLが見つけられてクロールされる機会の多さ」「クロールされる優先度」なのかなと。優先度は、「重要な情報どうか」だけではなく「クロールに支障がないか」などによっても決められるんではないかと感じています。
- 獲得しているリンクが多ければ、その分クロールされやすくなります。
- どちらにせよサイトが無限にクロールされることはありませんのでリソースは有限です。
- 有限なリソースなら、より効率よく重要なページがクロールされる工夫をしましょう
ということに加えて、例えばサーバーサイドでエラーが頻発するとか待機時間が鬼のように長い、みたいなことがあればそれは有限なリソースを食いつぶすことにも繋がりますので、そうしたサイトは必然的にクロールの優先度を下げられると考えて良いと思っています(これは体感でめっちゃ感じるところ)。
個人的にはこの(特にサーバサイドの)速度改善もクロール優先度を上げるために必要な施策と思っております。特に新規のサイトでコンテンツ量は多いけどリンクは集まってないし速度も遅い、みたいなサイトだと本当にSEOは全く機能しないなという印象です。
なんだかとりとめないですがここまでまとめますと、
- 多くのリンクを集める
- クロール負荷をかけないよう速度改善する
- クロールを制御する(その必要があれば)
大きなサイトで重要なページのクロール絶対量を増やすために特に重要なポイントはこの3点でしょうか、と思っています。なんだか当たり前な感じになりましたけども。
以上です。ちょっとライトな話題ですが社内用メモとして書いておきました。(この辺り実務レベルでしっかり語れる方で補足頂けるようでしたら是非ご遠慮なくお願いします)
9/8追記
多分、↑の結論の書き方も雑で良くなかったですね。すみません。言いたかったことは、クロールバジェットとかあろうがなかろうが関係なく、これらの取り組みはSEO気にする上ではどちらにせよ普通に取り組むべき項目ですよね、ということが伝えたかったまでで、、
追加で、ちょいちょい記事内でニュアンスは出したつもりでしたが、僕も業務上でこの言葉を使ったことも上限値みたいなものを体感したこともないですし、上限値を気にしてどうこうするとかはほとんどのサイトで考えなくて良いというのは共通認識でございます、、
9/8追記:集中放火を浴びたので追記します
業界の偉い人たちから集中放火を食らったのでご紹介しようと思います。違うんです、そうじゃないんです。決してそういうのを期待していたわけじゃない、、
クロールの上限の話。激しいスパムをやるんじゃない限り、それを気にしないといけないのは多分日本で50もないはず。クローラビリティで片付く話ですね。 どうして流行って、多くの人が余計な不安を持つようになっちゃったのかなあ。
? 辻正浩 | Masahiro Tsuji (@tsuj) 2014, 9月 8
うん、クロール上限とかのご質問は、SEOだけでなく、ちょっとお隣の業界の方にも質問されたりしますが、大概の場合、気にされなくてもよいですよと話すことがほとんど。もちろんそれがとんでもなくネックになるサイトもありますが、ものすごーく一握りのはず・・。
? ai hinishi (@sunwest1) 2014, 9月 8
むしろ、余計なページをクロール・インデックスさせない様にする技術の方が使う場面多いと思うんだけれどもなぁ。。 そっちを頑張って効果が出るサイトは意外とあるんじゃないかな?って思ってます。 僕のクライアントでも結構いますし。
? 伊藤公助 (@self0828) 2014, 9月 8
余計なページをクロールさせない?っていうのも、難しかったりして「このページ(カテゴリ)はインデックスさせていいんですか?ダメですか?」と都度質問してくるようなってしまったSEO担当者さんが昔いた・・w このあたりは、一般論でくくれないですよね
? Takahiro Watanabe (@takahwata) 2014, 9月 8
あまりに自然リンクが少なすぎて Google にクロールされづらい状況におかれているような人が「クロールバジェット」のことだと誤解する可能性があるから、この話題はネット上(の記事やコラムで)言及しないようにしている。この話は一般論で語るものじゃない
? Takahiro Watanabe (@takahwata) 2014, 9月 8
いや、皆さんのおっしゃることはわかりますよ!分かります!不用意なポストしてご迷惑おかけしてすみませんでした。ただこの一連のツイートには価値あると思ったのでこちら引用しつつタイトルを【閲覧注意】にしておきました。。
悪いのは土居さんと把握しました所で目的地に着いたので離脱します!RT @kimuyan: @suzukik @tsuj きっと再度は元記事を書いた @amateras_seo が悪いってことになって終わるんだろうな。土居くんかわいそうw
? 辻正浩 | Masahiro Tsuji (@tsuj) 2014, 9月 8
馬鹿な。
9/8追記2:みなさん優しい人たちでした
ああああ、ってすみません、言いたい事は伝わっておりました! RT @amateras_seo: ボロクソだったのでタイトル変えて追記しました → 【閲覧注意】「クロールバジェット」という言葉について http://t.co/pEGE1TBHWJ
— 辻正浩 | Masahiro Tsuji (@tsuj) 2014, 9月 8
SEOのブログで閲覧注意てw 僕のアレなツィートまで拾って頂き、ありがとうございます! 言いたかった事は伝わっております!/【閲覧注意】「クロールバジェット」という言葉について http://t.co/c2HH1LO05E
— 伊藤公助 (@self0828) 2014, 9月 8
仰りたかったことはもちろん伝わっております!私のツイート拾って頂いてしまい逆に恐縮です。RT @amateras_seo: 【閲覧注意】「クロールバジェット」という言葉について http://t.co/zjojwx9fGw
— ai hinishi (@sunwest1) 2014, 9月 8
9/8追記3:一連のツイートこっちにまとめました
多分この一連のツイートを引き出したということで一定の価値あるポストをしたと自分で評価することにします。めったに一般に話題になるお話ではないので是非見てみて下さい。
「クロールバジェット」という業界用語について書いたら偉い人たちから集中砲火を浴びる、の巻
集客・コンバージョン数を増やしたい方へ
「ナイルのSEO相談室」は業界歴15年超のナイルが運営しているメディアです。SEOの最新情報を随時発信しているので、ぜひブックマークしてください!
またSEOにお悩みの方は無料相談やSEOコンサルティングサービスのご利用もぜひご検討ください!