グーグルの仕組み

Googleの検索バーにテキストを入力して「Enter」を押すたびに、数百、数千、時には数百万ものインターネットページが表示され、すべてに関連情報が表示されます。さて、この検索エンジンがわずかな時間で膨大な量の情報を、どうやって引き出すことができるようになったか考えたことはありますか?このテクノロジーの縮図とも言える存在が、入力を終えるずっと前から、どのように検索対象を予測し始めるのか疑問に思ったことはありませんか?この記事では、この検索エンジンの動作についてかなり詳しく説明します。

ウェッブ・ボットまたはスパイダーの仕様

Googleは、他の検索エンジンと同じようにスパイダーのように見えるウェッブ・クローラーまたはプログラムを使用します。また、他の検索エンジンと同様に、Googleにはキーワードの大きな索引と単語が見つかる場もあります。特に、Googleを他から際立たせているのが検索結果のランク付け方法です。これにより、Googleのフロント・ページに表示される結果が決まります。 Googleはページ・ランクと呼ばれるアルゴリズムを使用して、各ページに関連性スコアを割り当てます。

ページ・ランク

ペー-ジ・ランクは、Googleがウェブ・ページの評価に使用した最初のアルゴリズムであると報告されています。この単純化されたモデルは、閲覧中に逸脱しうる可能性のある、すべてのサイトの柔軟な発想での検索結果を推定します。 ページ・ランキングは、非サイクル有向グラフを使用してランダム・ウォーク説の概念を使用します。たとえば、このアルゴリズムは、インターネット・アクティビティの85%が、インターネットでのランダム検索、および指定されたサイトへのアクセスによって記述されると示しています。他の15%は、インターネット上でアクセスするランダムなサイトによって決定される場合があります。

サーチ・エンジンはどうやってウェッブでクロールするか?

フレーズをキー入力して「検索」を押すと、Googleはウェーブをクロールします。理想的には、すべての新規および既存の情報を常にネット内で探し回る、小さな自動化プログラムがいくつかあります。これらの小さなボットがあなたのサイトに到達すると、タイトル、タグなどの情報を収集し、それにより、あなたが誰であり、何に興味があるのか​​をさらに学習します。つまり、ボットは新しいデータを正確に収集し、データベースに記録するという大きな課題を抱えていることになります。

データのインデックス化

ボットがウェッブ・ページのクロールを完了すると、データコピーを作成し、最終的にデータ・センターに保存する検索エンジンにそれをもどします。 Googleのデータ・センターは巨大であり、クローラーが戻す、すべてのWebページの、いわば呼吸器の機能を果たすように意図的に構築されています。興味深いことに、Googleは世界中に点在する数百万のデータ・センターを所有しています。この呼吸器はインデックス=索引と呼ばれます。したがって、このインデックス作成は、データを整理してウェッブ・クエリで使用できるようにするプロセスとして定義できます。

アルゴリズム

最後に、索引化されたウェッブ・ページの膨大なコレクションがあり、毎日更新されています。次のステップは、検索の関連性の順にそれらをランク付けすることです。アルゴリズムは、個々の検索に関連して、各サイトの関連性の価値を計算する非常に複雑で長い方程式であることを認める必要があります。 Googleを含む検索エンジンは、競合他社からこれを保護するために、このアルゴリズムを極秘にしています。