前回の記事では「人にとって理解しやすい」という角度からWebというメディアの生理的な特徴について述べました。今回は「機械にとって理解しやすい」という角度から少しお話を進めたいと思います。
機械にとって理解しやすいとは
ここでいう機械とは主に「検索エンジン」であり、情報を収集するための「クローラー」を想定しています。
ご存じのように検索エンジンがWebサイトの内容を知るためにはクローラーがWebサイトの中を動き回ってそのWebサイトり中の情報を集めまわります。では「"泳ぎ回る"=動き回る」とはどういうことなのでしょうか。結論から先に言うと具体的にクローラーがどのように動き回るかについて検索エンジンは詳細は公表していません。まあ競争の激しい分野ですから当然と言えば当然なのかもしれません。
しかし、以前にも述べたとおり、ある意味検索エンジンはHTMLやPHPファイルから情報を集めるしかないわけですからファイルやコンピュータ(検索エンジンもコンピュータやシステムの集まりです)の特性について考えることでヒントを得ることができると思います。そしてそれらを自分が運用しているWebサイトの改善に役立てることができるとすれば、これも立派なSEO対策だと思います。
同じ単語やテキストを抽出することはコンピュータの得意分野
これは端的に言えばマイクロソフト社の代表的なワープロソフトである「ワード」の「検索・置換」といった機能(最近は「ナビゲーション」という名称に変わったみたいです)を思い浮かべていただくのが早いかと思います。
文章の中のある特定の単語がどこにあるかを示してくれる機能ですね。割合良く使われる機能だと思います。具体的には探し出してほしい単語が入力されると、ファイルの頭からお尻までたどって入力された特定の単語つまりテキストと一致するデータをファイルの探し出して表示するという動きになります。この時コンピュータの中では文章の中の一つ一つを「一致する/一致しない」という照合を繰り返して一致するものだけを表示するわけです。このような作業は人間より間違いなく早くできますし、正確です。コンピュータが威力を発揮しやすい作業と言えるでしょう。個人的には「一致する/一致しない」が現在のコンピュータの基本原理である2進法つまり「0/1」のイメージに重なります。
単語をたどることとクローラーの動き
このような一致するデータを探し出す動きは、クローラーの動きに影響を与えているものと考えます。理由はコンピュータにとって基礎的かつ得意とする機能であり、検索エンジン側がこのような機能を意図的に全く無視することは考えづらいからです。
言うまでもありませんが文章の中であることについて書かれていることと同じ部分を探そうとすればそこで使われている同じ単語を目で追う、という作業を人間は行います。コンピュータがファイルの中で行うこともそれと相似していて、上に述べた検索の機能を使って同じ単語の位置を調べ、その周辺のテキストを採集するという動きになるでしょう。
この「動き」こそクローラーが実際に動いて行く(クロールする)際の具体的な形の一部だと考えます。実際はこんなに単純な話ではありません。しかしこのようにイメージすることで"泳ぎ回る"ことに関する具体的なイメージが少し湧いてくるのではないでしょうか。
次回に続きます。