robots.txt の初心者向けの書き方や意味を解説

目次
robots.txt とは何か?
Google や Yahoo! といった検索サイトの多くは、クローラーと呼ばれる情報を自動収集するプログラムを利用しています。クローラーがインターネットに公開されたWebサイト情報を自動収集することで、膨大な検索結果を実現しているのです。
robots.txt はそのクローラーに対して、「お願い」をするための仕組みとなっています。
robots.txt で出来ることの例
robots.txt で特定のページやディレクトリにアクセスしないように依頼する事ができます。また、jpeg画像などの特定のファイルのみを許可しないなど細やかに設定する事もできます。
ただし robots.txt は「クロールの制御」が主な目的であり、検索結果への表示(インデックス)を完全に防ぐには、noindex タグをファイルに記述するなど、別の方法と併用する必要があります。
Webサイトの地図である、サイトマップの場所を記入することで、効率的にインデックスを作ってもらい、効率的に検索結果に表示させやすくする事もできます。
robots.txt で出来ないことの例
robots.txt はクローラーの完全な制御を行うことは出来ません。
アップロードしたイラストや文章がAIの学習に利用されないように「拒否」の設定をする事ができますが、robots.txt はあくまでお願いベースの仕組みであり、すべてのクローラーが必ず従うわけではありません。robots.txt の設定を無視してクローラーが動作して、アクセスしてきたり、AIの学習に利用したりする事もあります。
記述方法
昔は手動でファイルを直接編集して記述する方法が一般的でした。しかし、1文字でもタイプミスがあった場合など、記述に少しでも間違いがあると正常には動作せず、その原因を特定することは初心者には非常に難易度が高いものでした。
そこでお勧めする方法が、専用のツールを使う方法と、ChatGPTやGeminiなどのAIを使う方法です。
専用ツールの例
robots.txtジェネレーター - SEO対策ツール | アサリツールズ
日本語で、シンプルな画面で初心者でも分かりやすく設定する事ができます。
Robots.txt Generator - Generate robots.txt file instantly
英語ですが、クローラーロボット別に細かい設定を行うことができます。
ChatGPTやGeminiに作成してもらう方法
お好みのAIに、自分のWebサイトのドメインやサイトマップのURL等を伝えて、拒否したいページや許可したいページについて、相談しながら作成して貰う方法です。
robots.txt の記述例
以下は、WordPress を使ったWebサイトでよく使われる記述の例です。
User-agent: *
Disallow: /wp-admin/
Sitemap: https://example.com/sitemap.xmlこれは「WordPress の管理画面はクロールさせず、それ以外は許可する」という robots.txt の例です。また一番下の行で、サイトマップの場所をクローラーに教えています。
設置方法
作成した robots.txt は FTP などを使って、ドメイン直下にアップロードして保存します。
ドメイン直下とは、 example.com というWebサイトならば、 https://example.com/robots.txt のようなURLでアクセスできるように設置します。
mixhostならば、ファイルマネージャーを使う事で、FTPソフトの設定をせずに簡単にアップロードする事も可能です。
ファイルマネージャーの使い方 | mixhostヘルプ&サポート
確認方法
正常に動作しているかの確認方法は、Google Search Console などの、検索サイトのサイトオーナー管理画面で確認する事ができます。
管理画面が用意されておらず、動作確認をする事ができない検索サイトもあります。
まとめ
robots.txt は、検索サイト等で利用されているクローラーに対してアクセスの許可や拒否を指示する事ができます。しかし、確実にその指示が守られる保証は無く、robots.txt の内容が無視されてしまう場合もあります。
robots.txt を作成する場合には、初心者の方は専用のツールを利用するか、ChatGPTやGemini等のAIツールを利用して作成すると、間違いが無く確実です。
robots.txt が正常に読み込まれているか等は、検索サイトのサイトオーナー管理画面で確認する事ができますが、管理画面が無い検索サイトもあります。

