位置についてよーいどん!グーグルボットレース

Googlebot Raceは、毎日18億以上のWebサイトが参加している、珍しいトーナメントです。このトーナメントは、一般に「ランキング要因」と呼ばれる多くの競技会で構成されています。毎年、できるだけ多くの競技について説明しようとする人がいますが、実際にその内容とその数はわかりません。グーグルボット以外誰もいない。それは彼が毎日何ペタバイトものデータを横断し、ウェブマスターに最も奇妙な分野で競争することを強い、最高のものを選択するようにしています。またはそれが彼の考えです。

1,000m走ります(尖塔付き) – 割り出し速度をチェックしています。この競争のために、私は5つの同様のデータ構造を提示しました。それらのそれぞれは、ユニークなコンテンツと追加のナビゲーションページ(例えば、他のサブページまたはカテゴリ)で1000のサブページを持っていました。以下に4本の走っているトラックの結果を見ることができます。

このデータ構造は、1ページに固有のコンテンツを持つサブページへの1,000のリンク(つまり1,000の内部リンク)を持つ非常に貧弱なものです。 SEOの専門家全員(私も含めて)がそれを繰り返しています。1ページあたり100以下の内部リンクをGoogleでクロールできず、一部のリンクを無視してインデックスを作成することはできません。私はそれが本当かどうかを確かめることにしました。

これは平均的なランニングトラックです。別の100個のサブページ(それぞれのページに、前のページ、後のページ、最初のページ、最後のページへのリンクが表示されています)。各サブページには、コンテンツを含むページへの10の内部リンクがあります。最初のページはメタロボットタグindex / follow、他のものはnoindex / followで構成されています。

ちょっとした混乱を招きたかったので、Webサイト上にサイロ構造を作成することにし、それを50のカテゴリに分けました。それぞれに、コンテンツページへの20のリンクがあり、2つのページに分割されていました。

売り上げアップするならホームページ制作で長崎市

次のランニングトラックはこのトーナメントの暗い馬です。通常のページ付け/ページングは​​ありません。代わりに、rel = "next" i rel = "prev"という見出しでページング/ページ付けを行って、Googlebotが進むべき次のページを定義します。

ランニングトラック番号2は似ています。違いは、私はindex / noindexを取り除き、最初のページのすべてのサブページに標準タグを設定したことです。

そして彼らは立ち上がった…

hits – Googlebotアクセスの総数

indexed – インデックス付きページ数

私はその結果に失望したことを認めなければなりません。サイロ構造によって、サイトのクロールとインデックス作成が高速化されることを実証できればと思っています。残念ながら、それは起こりませんでした。この種の構造は、私が管理するWebサイトで私が通常推奨し、実装しているものです。これは主に、それが内部リンクに与える可能性があるためです。残念ながら、大量の情報があると、索引付けの速度と密接に関係しません。

それにもかかわらず、驚いたことに、グーグルボットは1000の内部リンクを読むこと、30日間それらを訪問すること、そして大多数を索引付けすることを容易に取り扱った。しかし、一般的に、内部リンクの数はページあたり100であるべきだと考えられています。つまり、インデックス作成を高速化したいのであれば、このように多数のリンクがある場合でも、WebサイトのマップをHTML形式で作成する必要があります。

同時に、noindex / followを使った古典的なインデックスはindex / followとrel = canonicalを使って最初のページに向けることでページネーションを絶対に失います。最後のものの場合、Googlebotは特定のページ番号付きサブページをインデックスに登録しないと予想されていました。それにも関わらず、100ページ分割サブページから、それが再び示しページ1への正規のタグ、(私はそれについて書いたにも関わらず、5をインデックス化している、ここで正規のタグを設定すると、ページのインデックス化と検索での結果の混乱を避けることを保証するものではありません)エンジンのインデックス

上記のテストの場合、最後の構成が索引付けされたページ数に対して最も効果的な構成です。たとえば30日以内に、インデックス付けされたページ数に対するGooglebotのアクセス数の割合で定義される新しい概念のインデックスレートを導入した場合、テストで最も良いIRは3,89(ランニングトラック5)になります。最悪の場合は6,46になります(走路2)。この数は、インデックスに登録するために必要なページへのGooglebotの平均アクセス数を表します(そしてインデックスに保存します)。さらにIRを定義するには、特定のURLのインデックスを毎日確認することをお勧めします。そして、それは間違いなくもっと理にかなっているでしょう。

この記事の主な結論(実験開始から数日後)の1つは、Googlebotがrel = nextおよびrel = prevタグを無視することを実証することです。残念なことに、私はこれらの結果を公表するのを遅らせ(詳細を待つ)、 3月21日にJohn Mullerが実際にこれらのタグはGooglebotによって使用されていないと発表した。この記事をGoogle Docsで入力しているという事実がそれに関係しているのかどうか(#conspiracytheory)。

無限スクロールを含むページを見てみる価値があります – 動的コンテンツのアップロード、ページの下部までスクロールダウンした後にアップロードされ、rel = prevとrel = nextに基づくナビゲーション。 CSSに隠された通常のページ付け(ユーザーには見えないがGooglebotには見える)など、他にナビゲーションがない場合は、Googlebotが新しくアップロードされたコンテンツ(商品、記事、写真)にアクセスするのを妨げることができます。


この記事に記載されている意見はゲストの著者のものであり、必ずしもSearch Engine Landのものではありません。スタッフの作者はここにリストされています


著者について

Max Cyrekは、デジタルマーケティングコンサルタントでSEOのエバンジェリストであるCyrek Digitalの CEOです。 30年以上に渡る彼のチームと共に、何百もの企業と協力して成功を収め、10年近くデジタルマーケティングに取り組んできました。