ロボット型検索エンジンとは?Webクローラー自動巡回の仕組み
目次
ロボット型検索エンジンとは
ロボット型検索エンジンとは、WWW(World Wide Web)上のWebサイトのページ情報を自動で収集し、あらかじめデータベース化しておくことで、ユーザーが入力した検索キーワードをもとにデータベースに登録されたページのランキング付けを行い、検索結果を表示する仕組みのことです。
主要な検索エンジンはほぼこの仕組みが導入されており、GoogleやYahoo!、Bingもロボット型検索エンジンを採用しています。
一方、手作業で情報を収集し、人力で分類を行う検索エンジンをディレクトリ型検索エンジンといいます。ロボット型検索エンジンが主流になるまでは、ディレクトリ型検索エンジンが主流でした。代表的な例では、Yahoo!カテゴリがこれにあたります。
\疑問や不明点はお気軽にご質問ください!/
ロボット型検索エンジンの仕組み
まず、クローラーあるいはスパイダーと呼ばれるロボットがWebサイトを自動で巡回し、訪れたページの情報を収集します。
クローラーによって集められたページ情報は、内容を単語ごとに分解して解析され(形態素解析)、データベースに登録されます。この処理を「インデックス」と呼びます。ユーザーの検索行動の前に、インデックスまでの一連の流れが完了しています。
ユーザーが実際に検索キーワードを入力すると、形態素解析により検索語が分解され、ランキングアルゴリズムに基づいて、インデックスされたWebページのスコアリングが行われます。順位付けされたページは、最終的な調整を経て、点数の高いものから順に検索結果に表示されます。
ロボット型検索エンジンの特徴
ロボット型検索エンジンは、原理的には世界中全てのWebページをクロールすることも可能であるため、ユーザーは膨大な範囲の情報から検索することができます。また、定期的にクローリングが行われるため、新鮮な情報からも検索することができます。
一方、検索キーワードによっては、検索エンジンがユーザーの意図を正確に読み取れないことがあります。また、扱うデータの量が膨大であるため、ユーザーが意図しないWebページが検索結果上に表示されてしまうこともあります。
集客・コンバージョン数を増やしたい方へ