混合ディレクティブ:robots.txtファイルがwww / non-wwwやhttp / httpsなどのサブドメインとプロトコルによって処理されることを思い出させる[ケーススタディ]

私は何年にもわたってrobots.txtの興味深い状況に何度か遭遇しましたが、サイト所有者が理解するのは難しいかもしれません。問題を浮き彫りにし、クライアントとその問題に取り組む方法について話し合った後、多くの人がそれが起こる可能性があることに気づいてさえいないことに気づきました。また、サイトのrobots.txtファイルが関係しているため、SEOに大きな影響を与える可能性があります。

私は、サブドメインとプロトコルによって処理されているrobots.txtファイルを参照しています。つまり、wwwとwww以外の場所にある複数のrobots.txtファイルを同時に実行したり、https wwwとhttp wwwのプロトコルを使用したりすることができます。また、Googleはこれらを個別に処理するため、サイトをクロールする(またはクロールしない)方法について非常に異なる指示を送信することができます。

この投稿では、問題が発生したサイトの2つの実例を取り上げ、Googleのrobots.txtドキュメントを取り上げ、これが発生していることを検出する方法を説明し、クライアントの支援に基づいて途中でいくつかのヒントを提供しますこの状況で。

クロールしましょう、引っ越しという意味です。 🙂

サブドメインとプロトコルごとのRobots.txt

上記で述べたように、Googleはrobots.txtファイルをサブドメインとプロトコルで処理します。たとえば、サイトでは、www以外のバージョンに配置されているrobots.txtファイルが1つと、wwwバージョンに配置されているまったく別のファイルがある場合があります。これは、クライアントを支援している間に何年にもわたって発生するのを見てきました。

wwwとwww以外のサイトでは、サイトのrobots.txtファイルをhttpsバージョンのサブドメインに配置してから、httpバージョンのサブドメインにも配置できます。したがって、上記で説明したのと同様に、プロトコルに基づいて異なる命令を持つ複数のrobots.txtファイルが存在する可能性があります。

Googleのドキュメントでは、robots.txtファイルの処理方法が明確に説明されているので、そのドキュメントを読むことをお勧めします。 robots.txtの指示がどのように適用されるかについて、いくつかの例を示します。

Googlebotが同じサイトの異なるrobots.txtファイルをフェッチし、さまざまな方法でサイトの各バージョンをクロールする可能性があるため、これは明らかに問題を引き起こす可能性があります。 Googlebotは、サイトの所有者がrobots.txtファイルを介して1つの一連の指示に従っていると誤って考えているときに、他のクロール中に2番目の指示セットに実行されているときに、興味深いことをする可能性があります。

この状況に遭遇した2つのケースについて、以下で説明します。

ケーススタディ#1:wwwと非wwwでディレクティブが競合している異なるrobots.txtファイル

パブリッシャーサイトで最近クロール分析と監査を実行しているときに、robots.txtによってブロックされている一部のページが実際にクロールされ、インデックスに登録されていることに気付きました。 Googleが100%クロールに関するrobots.txtの指示に従っていることを知っているので、これは明らかに赤信号でした。

明確にするために、robots.txtの指示でクロールを禁止する必要がある場合でも、クロールとインデックス登録が正常に行われていることを指します。 Googleは、robots.txtによってブロックされたURLを実際にクロールせずにインデックスに登録できます。その状況については、まもなく取り上げます。

サイトのrobots.txtファイルを手動で確認したところ、www以外のバージョンで制限された一連の指示が表示されました。次に、サイトの他のバージョン(サブドメインおよびプロトコル別)を手動でチェックして、問題がないか確認しました。

そして、そこには別のrobots.txtファイルがwwwバージョンのサイトに置かれていました。そして、ご想像のとおり、www以外のバージョンとは異なる指示が含まれていました。

robots.txtファイルの非wwwバージョン:

robots.txtファイルのwwwバージョン:

売り上げアップするならホームページ制作で長崎市

このサイトは、wwwバージョンのrobots.txtファイルをwww以外のバージョンに正しくリダイレ​​クトしていませんでした。したがって、Googleは両方のrobots.txtファイルにアクセスし、クロールするための2つの異なる命令セットを見つけることができました。繰り返しますが、多くのサイト所有者は、これが発生する可能性があることを認識していません。

インデックスに登録できるrobots.txtによってブロックされたページに関する簡単なメモ

前述のとおり、robots.txtによって適切にブロックされたページは引き続きインデックスに登録できます。彼らはクロールされません。 Googleはこれについて何度も説明してきましたが、 robots.txt に関するドキュメントで、 Googleがロボット化されたURL インデックスに登録する方法の詳細をご覧いただけます。多くのサイト所有者にとって混乱するテーマであることはわかっていますが、Googleは許可されていないページをインデックスに登録することができます。たとえば、ブロックされたページへのインバウンドリンクを検出した場合、Googleはこれを行うことができます。

その場合、URLにインデックスが作成され、SERPに「このページには情報を提供できません」 というメッセージが表示されます。繰り返しますが、それはこの投稿で私が言及しているものではありません。私は、robots.txtファイルの複数のバージョンを確認したGoogleに基づいてクロールされ、インデックスに登録されているURLを参照しています。これは、インデックスに登録されているロボット化されたURLに関するGoogleのドキュメントのスクリーンショットです。

Google Search Console(GSC)とrobots.txtファイルはどうですか?

検索タンブルウィードがほこりっぽい空気を吹き込んでいるGoogle Search Consoleの遠い地域には、サイト所有者がrobots.txtファイルをデバッグするときに使用できる優れたツールがあります。これはrobots.txtテスターと呼ばれ、GSCで私のお気に入りのツールの1つです。残念ながら、多くのサイト所有者が見つけるのは困難です。新しいGSCからのリンクはありません。GSCのレガシーレポートセクションでさえ、リンクされていません。

そのツールを使用すると、Googleが確認した以前のrobots.txtファイルを表示できます。そして、ご想像のとおり、robots.txtファイルは両方ともそこにありました。つまり、Googleは2つ目のrobots.txtファイルを正式に確認していました。

1つのバージョンを示すGSCのrobots.txtテスター:

2つ目のバージョンを示すGSCのrobots.txtテスター:

言うまでもなく、私はクライアントに情報やスクリーンショットなどをすぐにメールで送信し、2つ目のrobots.txtファイルを削除して、wwwバージョンを非wwwバージョンに301リダイレクトするように伝えました。これで、Googleがサイトにアクセスしてrobots.txtファイルをチェックすると、一貫して正しい一連の指示が表示されます。

ただし、現在誤って索引付けされているURLがいくつかあることに注意してください。つまり、私のクライアントはクロールのためにこれらのURLを開いていますが、メタロボットタグを介してファイルのインデックスが作成されていないことを確認しています。 GSCで合計が下がったことを確認したら、その領域を再びブロックするための適切な禁止命令を含めます。

ケーススタディ#2:httpとhttpsで異なるrobots.txtファイルを使用し、全面的に禁止

簡単な2番目の例として、サイト所有者が数年前に私に連絡しました。オーガニック検索トラフィックが減少していて、その理由がわかりませんでした。掘り下げた後、プロトコルごとにサイトのさまざまなバージョン(各バージョンのrobots.txtファイルを含む)を確認することにしました。

robots.txtファイルのhttpsバージョンを確認しようとすると、最初にChromeのセキュリティ警告をクリックする必要がありました。そして、一度実行すると、その栄光に満ちていました…サイト全体のクロールをブロックしていた2つ目のrobots.txtファイル。 robots.txtファイルのhttpsバージョンに全面的な禁止がありました。たとえば、Disallowを使用します。/

この問題以外にも、サイトでは他にも多くのことが行われていましたが、robots.txtファイルが複数あり、1つが全面的に禁止されていることは最適ではありませんでした。

https robots.txtファイル(Chromeのセキュリティ警告の後ろに隠されています):

httpsプロパティのGSCに表示されるサイトの健康問題:

httpsバージョンを取得すると、ブロックされたことが示されます。

最初のケースと同様に、サイトの所有者は問題を修正するためにすばやく移動しました(CMSに基づいた簡単な偉業ではありませんでした)。しかし、最終的にはrobots.txtの状態が整いました。これは、Googleがrobots.txtファイルを処理する方法のもう1つの素晴らしい例であり、サブドメインまたはプロトコルごとに複数のファイルが存在する危険性があります。

取引ツール:サブドメインまたはプロトコルで複数のrobots.txtファイルを検出する方法

この状況を詳しく調べるために、サブドメインとプロトコルごとにrobots.txtファイルを手動でチェックする以外にも使用できるツールがいくつかあります。このツールは、サイト全体で見られるrobots.txtファイルの履歴を表示するのにも役立ちます。

Googleのrobots.txtテスター

先ほどrobots.txtテスターについて触れましたが、これはGoogleが直接提供するツールです。現在のrobots.txtファイルと、Googleが取得した以前のバージョンを表示できます。また、新しいディレクティブをテストできるサンドボックスとしても機能します。グーグルが何らかの理由でGSCの遠い隅に置いているにもかかわらず、それは素晴らしいツールです。

ウェイバックマシン

はい、インターネットアーカイブはこの状況に大きく役立ちます。これについては、Search Engine Landの前のコラムで説明しましたが、ウェイバックマシンは、標準のWebページをチェックするだけのものではありません。また、robots.txtファイルを時間をかけて確認することもできます。以前のrobots.txtバージョンを追跡するのに最適な方法です。

修正:301がレスキューにリダイレクトする

サブドメインまたはプロトコルによるrobots.txtの問題を回避するために、robots.txtファイルを優先バージョンに301リダイレクトするようにします。たとえば、サイトがwwwで実行されている場合、www以外のrobots.txtをwwwバージョンにリダイレクトします。また、httpをhttpsにリダイレクトしているはずですが、必ず優先プロトコルとサブドメインバージョンにリダイレクトしてください。たとえば、サイトの優先バージョンである場合は、https wwwにリダイレクトします。また、サイト上のすべてのURLが適切なバージョンに正しくリダイレ​​クトされることを確認してください

他のサブドメインの場合は、robots.txtファイルを個別に作成することもできますが、これはまったく問題ありません。たとえば、サブドメインforums.domain.comにフォーラムがあり、それらの手順がwwwとは異なる場合があります。これは、この投稿で私が言及しているものではありません。コアWebサイトについては、wwwと非www、httpとhttpsを指します。この場合も、他のサブドメインには独自のrobots.txtファイルを含めることができます。

概要:robots.txtファイルの場合、サブドメインとプロトコルを監視します

クロールを制御するため、Googleがrobots.txtファイルを処理する方法を理解することは非常に重要です。残念ながら、一部のサイトでは、サブドメインまたはプロトコルごとに異なる指示を含む複数のrobots.txtファイルを提供している可能性があります。また、Googleがサイトをクロールする方法によっては、どちらか一方が検出される可能性があり、クロールとインデックス作成に興味深い問題が発生する可能性があります。私は、この投稿の指示に従って、サイトが現在どのように機能しているかを理解します。そして、サイトをクロールする方法について可能な限り明確な指示をGooglebotに送信していることを確認してください。


この記事で表明されている意見はゲストの作者の意見であり、必ずしもSearch Engine Landではありません。スタッフの作者はここにリストされています


著者について

Glenn GabeはG-Squared Interactive (GSQi)のSEOコンサルタントで、デジタルマーケティングで24年以上の経験があります。 Glennは現在、アルゴリズムの更新の回復、技術的なSEO監査、Webサイトの再設計と移行のためのSEO、およびSEOトレーニングでクライアントを支援しています。グレンはキャリアの中で、出版、eコマース、健康と医療、金融、新興企業、軍事、教育、非営利団体、不動産、アフィリエイトマーケティングなど、さまざまな業界の企業を支援してきました。