漏洩した Google 検索アルゴリズムから学ぶSEO対策10点 (web#002)
2024年5月に Google の検索アルゴリズムが漏洩しました。
Google の検索アルゴリズムは極秘情報で、この四半世紀、これほど大規模で詳細な情報漏洩が報告されたことはありません。
この記事では漏洩した情報の概要、漏洩の経緯、漏洩した内容から推測できる検索アルゴリズムの内容と、SEO対策として実施すべきと思われる施策について解説します。
今まで Google 担当者が公表してきた内容とは異なる部分もあり、コンテンツマーケティングや SEO ご担当者には参考になる部分が多いかと思います。
【 目次 】
- リークした情報の概要
- Google 検索アルゴリズムがリークした経緯
- リークしたドキュメントと Google 公式声明との差異
- リーク①:著者の重要性
- リーク②:ドメインパワーの存在
- リーク③:ランキングにクリック数を反映
- リーク④:サンドボックスの存在
- リーク⑤:ランキングに Chrome データ
- リーク⑥:再ランキング(TWIDDLERS)
- リーク⑦:ページタイトルの重要性
- リーク⑧:日付の重要性
- リーク⑨:Site embeddings
- リーク⑩:小規模サイトの区別
- さらに詳しいリーク内容
- SEO と UX が緊密に連携する必要性
- Navboost の重要性
- まとめとその後の展開
リークした情報の概要
今回のリーク内容を精査した Rand Fishkin (以下フィッシュキン)氏と Mike King (以下キング)氏によると、漏洩した情報は、
・2,596のモジュール
と
・14,014のAPI機能
がある、
2,500ページ以上のAPIドキュメント
とのことです。
このリーク情報を記事にしたフィッシュキン氏が、彼の知人の元グーグル社員にこの情報の利用用途を確認したところ、プロジェクトに携わる人々が、利用可能なデータ要素に慣れるのを助けるために、様々なAPI属性やモジュールを説明したもののようです。
またこちらの動画でキング氏が言っているのは、この情報は「材料であってレシピではない。」ということです。
フィッシュキン氏の言葉でいうと、「これはグーグルの検索エンジンチームのメンバーに対する指示書だと考えてほしい。図書館の蔵書目録のようなもので、カードカタログのようなものだ。」ということです。
キング氏も、サマリーの多くは「追加情報を提供する Google の企業イントラネット上の URL である Go リンクを参照しており、そこは自分で解釈するしかない」としています。
Unfortunately, many of the summaries reference Go links, which are URLs on Google’s corporate intranet, that offer additional details for different aspects of the system. Without the right Google credentials to login and view these pages (which would almost certainly require being a current Googler on the Search team), we are left to our own devices to interpret.
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked (Mike King)
また、これらの情報には以下のような注意点が付け加えられています。
・それぞれの機能の重み付けは不明
・すべての機能が使われているとは限らない
・イントラネット上の追加情報までは含まれない
・トレーニング目的のみで使用されている可能性がある
・これらのドキュメントが最新版であるかの確証はない
とはいえ、ドキュメントには「もはや使用すべきではない」や「非推奨でもはや使うべきではない」という具体的な注記があり、これについてフィッシュキン氏は、以下のように言っています。
・このことは、そのような詳細が記されていないものが、2024年3月のリーク時点ではまだ現役で使用されていたことを強く示唆している。
・合理的な読者であれば、この文書は昨夏の時点で最新のものであり(2023年やそれ以前、2005年までさかのぼった他の変更に関する言及もある)、おそらく2024年3月の開示日時点でも最新のものであったと結論づけるだろう。
However, there are references in the documentation to deprecated features and specific notes on others indicating they should no longer be used. That strongly suggests those not ma
A reasonable reader would conclude that the documentation was up-to-date as of last summer (references to other changes in 2023 and earlier years, all the way back to 2005, are also present), and possibly even up-to-date as of the March 2024 date of disclosure.
An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them (Rand Fishkin)
Google 検索アルゴリズムがリークした経緯
これらの情報は2024年3月27日にGitHubにアップロードされ、2024年5月7日まで削除されずにいました。
5月5日(日)、著名な元SEOコンサルタントで現在は SparkToro と Snackbar Studio を経営するフィッシュキン氏のもとに、ある人物から「グーグルの検索部門内部から大量に流出したAPI文書にアクセスした」との連絡がありました。
連絡をした人物は、SEOの実践者であり、EA Eagle Digital の創設者である Erfan Azimi (以下アジミ)氏で、のちに自身の身元を公表しました。
https://www.youtube.com/watch?v=AEb8_rbfFVw&t=7s
その後フィッシュキン氏は元グーグルの知人3名と連絡をとり、データの信憑性を確認したうえで、世界屈指のテクニカル SEO であり iPullRank の創設者キング氏に技術的な側面の分析を依頼。
2024年5月27日、キング氏はその分析内容を記事として公開しました。
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
2024年5月30日、これまでこれらの資料についてコメントを拒否していたグーグルが、同社から流出した2,500点の内部文書は本物であると確認しました。
The Verge : Google confirms the leaked Search documents are real
リークしたドキュメントと Google 公式声明との差異
キング氏の記事では「APIドキュメントで明らかになったグーグルの重大な嘘」という強い言葉を使っていますが、過去の公式声明でグーグルが言っていたことと、今回漏洩したデータの内容に差異があるということです。
“The API Docs Reveal Some Notable Google Lies”
フィッシュキン氏らが過去に SEO について言及したことについてグーグルから否定されていた内容が、今回漏洩したデータで存在していたということもあり、アジミ氏 がリーク記事の公開をフィッシュキン氏に依頼したのでしょう。
実際アジミ氏 の目的は、「グーグラーが『何年も広めてきた』いくつかの『嘘』に反論すること」だったと語っています。
ここからは今回のリークデータから推測できる、SEO対策として対応できそうな内容についてご紹介します。
リーク①:著者の重要性
ドキュメントに関連付けられた著者をテキストとして明示的に保存していることを示唆する文書がリークされました。
つまり、「この記事を誰が書いているのか」ということが、ランキングを決定づけるうえで重要な指標になっていると推測されます。
Google からも「 E-EAT 」という要素が重要ということは発表されていますが、この中の「 Expertise (専門性) 」や「 Authoritativeness (権威性) 」が著者と結びついていると考えられます。
フィッシュキン氏も「オンライン上で著者としての影響力を高めることは、確かにグーグルでのランキングに有利に働くかもしれない。」と言っています。
“Building up one’s influence as an author online may indeed lead to ranking benefits in Google.”
「著者情報」についてのサイトでの具体的なSEO対策としては、以下のようなことが考えられます。
・記事ページと著者紹介ページを連携する
・著者紹介ページには、著者の専門性と権威性を明示する
著者紹介ページでは、過去に執筆した書籍や論文などを掲載できると効果的でしょう。
また、医師・弁護士・税理士などの肩書を掲載できれば有利です。医師の場合は専門分野や所属医師会なども掲載すると、より権威性や専門性としての評価を高めることができるでしょう。
上記のような著書、肩書が難しい場合は、業務での実績や過去に執筆したブログ記事などで、自分の専門性に通じる代表的なものを紹介することもできます。
また、グーグルは記事紹介ページだけでなく、オンライン情報の全体を見ています。自分のサイト以外(例えば Wikipedia や Amazon の著者ページ、その他自社以外のウェブサイトなど)で紹介される機会を増やすことや、 SNSで多くのフォロワーを獲得することも重要と考えられます。
リーク②:ドメインパワーの存在
グーグルの公式見解としては「ドメイン・オーソリティのようなものはない」と言っていましたが、漏洩したデータには “siteAuthority” と呼ばれる指標を算出していることがわかりました。
この指標が具体的にどのように計算され、スコアリングに影響しているかは不明ですが、サイトの権威性の指標が存在していることは明確になりました。
E-EAT の考え方からすると、「権威性(Authoritativeness)」を証明するものとしてドメインパワーが評価されているだろうということは、以前から SEO 担当者の中で言われていました。
人間の行動としても「誰が言った言葉か」で信頼性が評価されるのと同じで、「どのようなサイトに掲載されている記事か」で、記事の信頼性を確認することは自然な話です。ドメインパワーと言われるものが存在することに違和感はないでしょう。
※ドメインパワーの「重みづけ」については、 以前の記事でご紹介した2024年8月のコアアップデートで見直された可能性があります。
リーク③:ランキングにクリック数を反映
グーグルはこれまで「ランキングにクリック数は使わない」としていましたが、「 Navboost 」にクリックシグナルに特化したモジュールがあることがわかりました。
NavBoost とは、反トラスト法裁判の司法省でのグーグル検索担当副社長 Pandu Nayak 氏の証言で、存在が明らかになったものです。
NavBoost は、ウェブ検索のランキングを上げたり、下げたり、あるいは強化するためにクリックドリブンな手段を採用するシステムで、「すでに Google 最強のランキングシグナルの1つである」と指摘されています。
実際に、リークされた文書にも、「Navboost」の名前が84回も明記されており、タイトルに Navboost をフィーチャーしたモジュールが5つあります。
ドキュメントで言及されているクリックシグナルに特化したモジュールとは、「goodClicks」、「badClicks」、「lastLongestClicks」、「squashed」、「unsquashed」他、複数存在します。
これらの名称からすると、クリックしたかどうかというだけでなく、その後の行動も含めてランキングに反映されていると考えられます。
たとえば、以下のような例が考えられるでしょう。
・クリックしたが、想定していた記事と違うのですぐにインデックスに戻り、他の記事を閲覧した
・クリックした記事で自分の欲しい情報が得られ、短時間でページを離れた
・クリックした記事が自分の欲しい情報とマッチしていたので、記事をじっくり読んだ
・クリックした記事が自分の欲しい情報とマッチしていたので、記事を読み、さらに調べたいのでインデックスに戻り、他の記事を閲覧した
ここから考えると、記事ページの UX にも注意する必要があることがわかります。
せっかく検索上位に表示され、そこからから自社の記事にユーザーが訪れても、情報が整理されておらず見づらければ、ユーザーが離脱してしまい「バッドクリック」と判断され、検索順位に悪影響をもたらす可能性があります。
また、ユーザーがそのキーワードで検索した意図と違う記事であれば、これも離脱のきっかけになるでしょう。
このことから、該当のキーワードに対するユーザーの意図を理解し、その意図にマッチしつつ、 UX に配慮した記事を用意する必要があることがわかります。
クリックの数、質ともにランキングの重要な指標として重視することは、コンテンツマーケティングの運用にとっても、メディアのクオリティアップにつながるポジティブな内容ととらえられます。
リーク④:サンドボックスの存在
サンドボックス( Sandbox )とは、日本語でいうと「砂場」の意味になりますが、 IT の世界では「隔離された仮想領域」のことを意味します。
サンドボックスの存在を指摘したのもフィッシュキン氏でした。
彼は新しいサイトはサンドボックスに隔離され、一定期間評価が上がらないことを指摘していました。
しかし、現在は削除されている John Muller 氏のツイートでは、サンドボックスは存在しない “There is no sandbox.” と投稿されていました。
今回のリーク情報で、モジュールのドキュメントに “hostAge” という属性が示されていたことがわかりました。
ちなみに、 Host + Age だとドメイン名の年齢ということになります。
“Hostage” は人質という意味ですので、”Sandbox” よりも遊び心の効いた名前ですね。せっかくこのようなウィットの効いた名称をつけているので、「”Sandbox” は存在しない」と言い切りたくなる気持ちもわからなくはありません。
リーク⑤:ランキングに Chrome データ
ページの品質スコアに関連するモジュールのひとつは、Chromeからの閲覧数をサイトレベルで測定しており、サイトリンクの生成に関連すると思われる別のモジュールにも、同様にChrome関連の属性があることがわかりました。
キング氏は以下のように言っています。
「 Matt Cutts (マット・カッツ) は以前、Googleはオーガニック検索の一部としてChromeのデータを使用しないと発言していた。最近では、 John Mueller (ジョン・ミューラー) がこの考えを補強している。」
“Matt Cutts has previously been quoted as saying that Google does not use Chrome data as part of organic search. More recently John Mueller reinforced this idea. “
こちらはフィッシュキン氏の記事です。
「私の匿名の情報源によれば、2005年当時、グーグルは何十億ものインターネット・ユーザーのクリックストリームを完全に把握することを望んでおり、Chromeによってそれが可能になったという。APIドキュメントによると、グーグルは個々のページとドメイン全体に関連するChromeのビューを使用して呼び出すことができるいくつかのタイプのメトリクスを計算しているようだ。」
“My anonymous source claimed that way back in 2005, Google wanted the full clickstream of billions of Internet users, and with Chrome, they’ve now got it. The API documents suggest Google calculates several types of metrics that can be called using Chrome views related to both individual pages and entire domains.”
Chrome データを活用すれば、検索結果に対するユーザーの詳細な動向を把握でき、よりユーザーのためになる検索結果を構築できることは間違いありません。
リーク⑥:再ランキング(TWIDDLERS)
Twiddlers は、検索アルゴリズムの後に実行される再ランキング機能です。
検索アルゴリズムで計算した検索順位を、ユーザーに表示される直前に調整することができる機能で、 Google の様々なシステムにおいて、非常に重要なものとされています。
Twiddlers の利用シーンとして、考えられるケースをご紹介します。
たとえば BMW の公式サイトに、X5 という車種のページがあり、アルゴリズム的には一般の BMW ファンが書いた非公式の X5 に関する記事が上位に表示される評価になっていたとします。それをユーザーに表示する直前に、公式ページとみなされた BMW 社のページを上位に表示するよう調整するなどが考えられます。
また、検索結果がブログ記事ばかりになった時、企業サイトなどを入れ込むことによって、検索結果に多様性を持たせることができるかもしれません。
その逆に降格フラグをつけられたページが、アルゴリズムに反してランキングを下げられたり、表示されない可能性もあります。
リーク⑦:ページタイトルの重要性
ページタイトルの重要性は誰もが認識することかと思いますが、今回の漏洩ではそれを裏付ける titlematchScore という属性が存在することがわかりました。
この名称から、ページのタイトルがユーザーの検索意図にどれだけマッチしているかは、 Google が積極的に価値を与えるものであることがわかります。
なお、タイトルの文字数については以前から議論がありました。「32文字以内を目安に」という意見が多いですが、これは SEO の検索上位を目指すための数値ではなく、検索結果に表示されるタイトルの文字数が32~40文字程度だというところから、32文字以内にしておけば枠におさまるという意図から来ているものです。
実際には、漏洩した文書で、タイトルの文字数をカウントする措置は存在しなかったようですので、タイトルの文字数がランキングに影響することはなさそうです。
リーク⑧:日付の重要性
Google は最新の結果を表示することに重点を置いており、漏洩した文書では日付とページを関連付けようとする数多くの試みが示されています。
たとえば、日付を関連付けるいくつかのモジュールが存在します。
*bylineDate
ページ上で明示的に設定された日付
*syntacticDate
URL またはタイトルから抽出された日付
*semanticDate
ページのコンテンツから派生した日付
このようにページ内のあらゆる日付を取得し、ページと関連付けることで、その記事が最新かどうかを判断しているようです。
記事の公開日、更新日が Google にわかりやすいよう、タイトルやコンテンツ内に日付を表示することが重要と考えられます。
リーク⑨:Site embeddings
エンベディング (Embeddings) というと聞き慣れないことばですが、日本語だと「埋め込み」のことを指します。
とはいえ、「埋め込み」といっても何を指しているのかわかりづらいです。
検索アルゴリズムでのエンベディング(埋め込み)について最もシンプルに説明すると、X軸、Y軸、Z軸・・・と複数の軸(ベクトル)があるグラフの中に記事を配置して、関連性が高いかどうかを評価します。
記事がバラバラの位置に配置される、つまり記事の内容に関連性が少ないサイトは、「専門性のないサイト」だと評価される可能性があります。
検索上位に記事を表示させるには、ウェブサイトにどの分野における専門性を持たせるかをあらかじめ設計し、記事を執筆する必要があります。
リーク⑩:小規模サイトの区別
Google には、サイトが「小規模な個人サイト “small personal site” 」であることを示す特定のフラグがあります。
情報が漏洩した時点では、Google の検索結果でそのようなサイトを昇格させたり降格させたりした Twiddler を追加している可能性が考えられます。
ただし、小規模サイトの区別については、 以前の記事でご紹介した2024年8月のコアアップデートで、見直された可能性があります。
Google Search Central Blog でも、「ユーザーの検索内容に関連性がある場合、有用で独自のコンテンツを作成している小規模サイトや独立系サイトを含む、さまざまな高品質サイトとユーザーを結び付けることを目標としている」と記しています。
As always, we aim to connect people with a range of high quality sites, including small or independent sites that are creating useful, original content, when relevant to users’ searches.
実際に2024年8月のコアアップデート以降は、小規模サイトが上位表示される機会が増えているようです。
さらに詳しいリーク内容
ここまでご紹介した内容は、マイク氏の記事または以下の Youtube 動画で、さらに詳しく解説されていますので、よろしければこちらもご覧ください。
The Google Leak: Actionable Insights, Best New Practices, and Killer Tactics
https://www.youtube.com/watch?v=XCgTSOxmmkU&t=64s
この動画の中でマイク氏は、各項目について詳しく説明したうえで、「良いコンテンツ」と「強いブランド」を作ることを強調しています。
それを言ってしまえば SEO 担当者にとってはそれまでですが、 Google が求めているものは「テクニカルな SEO 対策が実施された記事ではない」という本質的な話だと思います。
SEO と UX が緊密に連携する必要性
リーク後に公開されたこちらの動画にフィッシュキン氏とキング氏が出演しています。
EXPOSED 🚨 Google Algorithm Leak 2024 SEO Experts Reveal Their Insights
https://www.youtube.com/watch?v=cymhsnWsZoQ
キング氏は、「SEO と UX はより緊密に連携する必要がある」と述べています。
NavBoost のところで解説したように、 Google は「クリック」を最も重要な機能の 1 つとして重視していますが、クリックだけでなく、「セッションの成功が何を意味するか」を理解する必要があります。
もしユーザーが検索結果から移動した記事で多くの時間を費やさなかったとしても、再度別の検索を行わなければ、そのクリックは成功とみなされます。これは、ユーザーが検索に合致したコンテンツを見つけることに成功したクリックだということを、示していると考えられます。
また当然、ユーザーが検索結果から移動した記事で、5分間滞在してから検索に戻る行為も成功とみなされます。
こういったことを理解し、より成功するセッションを作成する必要があります。
SEO はユーザーをページに誘導することであり、UX はユーザーにページで必要な操作を行わせることです。
記事に訪れたユーザーがすぐに離脱してしまわないよう、 UX に配慮することも、SEO対策を成功させる重要な要素となりそうです。
Navboost の重要性
動画内でフィッシュキン氏は、Navboost の重要性を強調しています。
記事の中でも以下のように述べられていました。
“我々はすでに知っているが、ある指標において、一つのシグナルが大きなシステム全体よりも強力である可能性がある。例えば、NavBoostが単独で、他のランキングよりもクリック数(そしておそらく精度や実用性の指標)に対してよりポジティブであることは間違いない(ちなみに、Navboostチーム以外のエンジニアも、Navboostのパワーや、それが「勝利を盗んでいる」という事実に不満を持っていた)”
Google 検索チームの他の部署が Navboost チームに嫉妬するほど、 Navboost が重要な位置づけにあるようです。
ランキング上位に表示されるだけでなく、クリックされるようなタイトルの設計、クリックの意図にあったコンテンツと UX設計が重要なことは間違いありません。
まとめとその後の展開
今回漏洩した情報はプログラムそのものではなく「様々なAPI属性やモジュールを説明したもの」ということですが、ここから解釈できることは多岐にわたります。
また、これまでフィッシュキン氏はじめ SEO 研究者がテストで実証してはいたものの、 Google 担当者が否定してきたものが、実際に属性として存在していたことから、必ずしも Google 広報担当者の言葉を信じ切って SEO 対策を実施していればよいものではないということがわかります。
とはいえ、アルゴリズムは常にアップデートされており、2024年5月に漏洩した情報から、すでに変わっているであろう部分もあります。
動画の中でフィッシュキン氏は「小規模のクリエイターが大規模なサイトにランキングで対抗することは難しい」と話していますが、2024年8月のアップデートでは、小規模サイトでも専門性が高くコンテンツの質が良ければ上位表示されるように調整されました。
それを考えると、今後はサイトのもつ専門性が益々重視されるようになると考えられます。
どのようなコンテンツを執筆するか、戦略的に計画を立ててメディアを運営していく必要があるでしょう。
SEO 担当者は常にアップデートされる新しいアルゴリズムを監視しつづけなければなりません。
そして、 Google の公表する情報だけでなく、自ら管理している多数のサイトの状況などから、真実を見極める必要があるのでしょう。
SEO対策 やコンテンツマーケティングでお悩みがあれば、お気軽に無料相談にお申込みください。
【出典・参考文献】
・SparkTOro (Rand Fishkin) : An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them
・ipullrank (Mike King) : Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
・The Verge : Google confirms the leaked Search documents are real
・Erfan Azimi (YouTube) : Google Leak (Public Statement)
・iPullRank (YouTube) : The Google Leak: Actionable Insights, Best New Practices, and Killer Tactics
・Sterling Sky Inc (YouTube) : EXPOSED 🚨 Google Algorithm Leak 2024 SEO Experts Reveal Their Insights