インナーSEOの基礎 その4「シンプルで基本的な、クローラーの"泳ぎ方"」とは(リンク編1)

前回の記事では単語を辿ってページ内を動き回る「クローラ」の動き方を紹介しました。今回はクローラはリンクに沿ってページの中だけでなく、他のページへの行き来してWebサイト内をダイナミックに動き回るというお話です。

インナーSEOの基礎 その4「シンプルで基本的な、クローラーの"泳ぎ方"」とは(リンク編1)イメージ画像

Webサイト内を自由に動き回る、とは?

Webが身近なものとなって久しい今日、「Webサイト内を自由に動き回ってクローラは情報を集めます」と言われて全くイメージが付かない方はあまり多くないのではないかと思います。ましてや仕事上何らかの形でかかわっている方からは「それは当たり前ですよ」と言われてしまいそうです。

そんな検索エンジンのクローラですが、具体的にはどのような形で動き回るのでしょうか。前回のお話では「単語」を手掛かりにあるページの中の情報をクローラが集めていくイメージをお話ししました。今回はあるページだけではなくほかのページに行き来するのはどのようにしているのか、ということについてのお話になります。

 

いつも述べていることですが、検索エンジンが情報を集めるおものな対象はHTMLやPHPファイルです。ですのでクローラが他のページへの手がかりとするものはページのソースコードの中にある、ということになります。それは他のページへのリンクを示している部分になります。具体的には

 

<a href="https://~">他のページへのリンク</a>

 

というおなじみのコード、aタグが示している内容になります。クローラはこれを手掛かりに関連する他のページを「知る」ことができるわけです。

クローラからすればあてずっぽうにWebサイト内のページを探し回るよりWebの制作者が示している「リンク」にそっていくつかのページの情報を集める方がずっと効率的、というわけです。

 

リンクは便利

リンクによってクローラは関連する他のページを効率的に知ることができます。

しかし、それだけでなく検索エンジンにとってこの「リンク」はなかなか使い出のある存在だと思います。

たとえばある1つのページにaタグが多数あってリンクを多数示しているページがあったとします。そうでないページあって比較するとします。もし人間だったら、人間は中身を「理解」することができます。そして理解に基づいてどちらのページが「有用か」を判断することができます。

 

しかし機械は「理解」することはできません。そんな機械を使ってが人間が理解して判断するのと似たような結果を出さなければならないとしたらどうでしょうか。まさに機械的にリンクの数を数えてその数が多い方のページを「有用なページ」とみなして表示する、という方法が考えられます。単純と言えば単純ですが、あちらこちらのページにリンクが張ってあるページはそうでないページと比べて閲覧者にとって「有用な可能性が高い」という仮説を立てることは、ある程度実効性があることは何となく想像がつきませんか。これは「思考できない」機械に思考した結果に限りな近い答えを出させるという「アルゴリズム」の原点ではないかと思います。

 次回に続きます。