こんにちは、つねです。
今回の第三回ウェブマーケコラムでは、ウェブ解析士に必要な用語と指標、それとデータ通信の仕組みについてです。
※本記事はウェブ解析の試験内容の復習として筆者がまとめたものになります。興味ある方はぜひ資格を(^_^)
ウェブサイトが表示される仕組み「アクセスログ」
「アクセスログ」とはウェブサーバーのブラウザのレスポンスとリクエストに関しての処理内容を記録したものです。
またアクセスログはツールなどで加工されていない状態のデータということから「ローデータ」、「生ログ」と呼ぶこともあります。
アクセルログは元々サーバーの負荷やシステムエラーがあった際に、その原因を確認するために使用するものだったが、サイトの閲覧状況の解析も可能であることから、アクセス解析が行われるようになりました。
ログフォーマット
アクセスログ情報の種類・順序などの書式は「ログフォーマット」と呼ばれています。
ログフォーマットには「Common Log Format」と「Combined Log Format」の2種類があり、アクセス解析にはCombined Log Formatが用いられています。
下記、ログフォーマットの各項目の説明です。
ポイント
IPアドレス:各コンピューターがインターネットに接続するときに与えられる住所のような識別子で、数字の文字列である。
IPアドレスを英数字で表すことがあるがその場合「ホスト名」となる。IPアドレスやホスト名が記録されることはmユーザーがどの接続ポイントから訪問しているかがわかるようになる。
ステータスコード:ウェブサーバーがレスポンスを返した際の「レスポンスの状況」を表現する3桁のコード。「301(Moved Permanently)」「404(Not Found)」などはウェブ制作の中でよく見かける代表的なコード。
転送容量:ウェブサーバーが配信するデータ量を示す。この情報はステータスコードが「200」だった場合にのみ記録され、それ以外は0バイトとなる。
リファラー:リクエストしたページの直前に閲覧したページのURL。
ユーザーエージェント:通信に利用するソフトウェアやハードウェアを識別するための文字列。モバイル端末の機種名やブラウザ名の情報によってリクエストに対してユーザーの閲覧環境に最適なデータをレスポンスとして返す目的もある。またユーザーエージェントで、
・OSの種類
・ブラウザの種類
・モバイル端末からのアクセスの場合は機種名
も知ることが可能。ただしプラグインやアドオンによって偽装することも可能なので、必ずしも正しい情報であるとは限らない点には注意。
クローラー
クローラーとは検索エンジンにRSSサイト(ホームページの見出しや本文の要約、更新情報などをの情報をXML(文章の見た目や構造を記述するためのマークアップ言語)をベースとするフォーマット)が情報を収集するために作った自動巡回プログラムです。
別名で「ロボット」「ボット」などと呼ばれることがあります。
人間によるアクセスではない「ノンヒューマンアクセス」です。
IPアドレスとCookie
アクセスログだけではセッションやユーザー単位での閲覧行動が把握できません。
この把握には、IPアドレスやCookieを使うことになります。
グローバルIPアドレスとプライベートIPアドレス
現在は端末の数に比べてインターネット上にあるIPアドレスが少ないので、組織やプロバイダー(接続業者)ごとに複数の端末で1つのIPアドレスを共有しています。
全世界で唯一のIPアドレスを「グローバルIPアドレス」、 組織内のみのネットワークで利用されるIPアドレスは「プライデートIPアドレス」という。
通常は同じインターネットへの接続ポイントを使っている端末は、同じグローバルIPアドレスが割り当てられている。
Cookieから得られる情報
Cookieはブラウザごとに記録される小さいファイルです。
同じユーザーでもスマホとPCor同じPCでも複数のブラウザを使えば、異なるCookieが使われます。
Cookieに保存される情報は、最後にサイトを訪れた日や訪問回数などです。
ウェブビーコン型アクセス解析では、ユーザーの識別、ユニークアクセス・セッションの測定に使われます。
1つのCookieには最大何バイトのデータを最大4,096バイト記録できます。
Cookieには有効期間が設定されており、期間が過ぎると勝手に消滅される。有効期限は7日間や2年間などアクセス解析ツールによって異なるのでちゃんと設定する必要があります。
Cookieは初回の訪問では持っていないので、ウェブサーバーから端末を識別できるIDなどを含むCookieを与えことで次のページを見たときに同じCookieを持っているかどうかでCookieを繋ぎます。
ウェブ解析士公式テキストの概念図がわかりやすかったので引用してます。
ファーストパーティCookieとサードパーティCookie
Cookieは発行元がどこのドメインかで次の2種類に分類されます。
ファーストパーティCookie:ユーザーが送ったリクエストのドメインデータしか取得できない。
メリットはユーザーにブロックされにくい。精度の硬いトラッキング(物や情報などの流れを「記録、追跡する」こと)や効果測定が可能。デメリットは複数のドメインにまたがった場合(example.comとexample.netなど)お互いの情報を参照・取得することができない。
サードパーティCookie:リクエストを送ったサーバーではないサーバーから送られてきたCookieで、第三者の広告配信やデータ収集を目的としている。2024年後半にはサードパーティCookieのサポートが終了になる。
最近Cookieをユーザー側で制限することも可能で、Apple社のブラウザのSafariではトラッキングを防止するものが実装されています。
最近HTML5で導入されたウェブストレージの一つで あるローカルストレージがCookieに変わる手法として注目されています。
ただしでデータの保存期間に限りはあります。
ローカルストレージ | Cookie | |
---|---|---|
容量 | 大(5Mバイト) | 小(4,096バイト) |
有効期限 | なし | あり |
サーバーへのデータ送信 | なし | リクエスト送信時に自動的にCookieの内容が送信される |
対応ブラウザ | 最新のブラウザは対応済み | 主なブラウザは対応済み |
ITP
トラッキングの防止によってユーザーのプライバシーを保護するための機能です。
具体的には、ウェブがブラウザに発行したCookieで、トラッキングを目的にしたCookieやローカルストレージの保管期限を短縮し、削除する機能です。
Cookieはファーストパーティでも7日間を過ぎると自動的に削除されるようになってしまい、アクセス解析や広告効果測定が正しくできなくなっている。
しかし現状はサーバーが発行したCookieは制限外のためそのような問題はありません。
いくつかの広告効果測定ツールはDNS(ドメイン名とIPアドレスを変換も担うもの)を切り替えたり、サーバーが発行したCookieを発行したりすることで問題回避しています。
しかし、規制は強化される方向にあります。
フィンガープリントとプライバシーサンドボックス
Cookienの規制が厳しくなる中で、広告やアクセス解析で個人を特定する新たな手法としてフィンガープリントという技術も生まれている。
フィンガープリント:ブラウザから取得できるプラグインのバージョンや種類、アドオンなどをもとに個人を特定し、広告やマーケに活かす技術。
端末・OS・利用プラグインなどの掛け合わせで個人を特定する。これには何をもとにトラッキングされているか、ユーザー本人がわからないため、自分ではトラッキングを拒否できない。
個人の情報を知るのは難しくなってはいるが、広告主が無駄な広告をしないようにするためにもトラッキングの要望は無くなりません。
だからフィンガープリントのような最強の手法が生まれます。
フィンガープリントは個人情報上いかがなものか、と言う懸念も多く、Googleはこの問題を解決するために、プライバシーサンドボックスというプロジェクトを進めている。
プライバシーサンドボックスはサードパーティCookieに変わるものです。
プライバシーサンドボックスとは、ウェブと Android アプリの両方でユーザーのプライバシー保護を強化する業界全体の取り組みです。提案しているソリューションでは個人の追跡を制限し、オープンで誰もがアクセスできる環境を維持しながら、ウェブと Android アプリで既存の技術に代わるより安全な手段を提供します。
The Pribacy Sandboxより引用
レンタリング
ブラウザは、HTML,CSS,JavaScriptなどのファイルを読み込んでユーザーにわかりやすく表示してくれている。このことを「レンタリング」と呼びます。
このレンタリング用のソフトウェアである「レンタリングエンジン」は、Google ChromeやSafariで使われる 「WebKit」などがあります。
HTMLは「head要素」と「body要素」に書かれている内容を読み込む。この作業はDOM(階層上、ツリー上になっていること)を利用して行います。
IPv4とIPv6、ジオロケーション情報
IPアドレスにはIPv4アドレスとIPv6アドレスがあります。
v4は2の32乗個(0〜255の数字4組の番号でアドレスを管理)、v6は34の38乗個(4桁の英数字8組で表記するIPv6では43億✕43億✕43億✕43億までIPアドレスを管理)のアドレス数の違いがあります。
v4ではアドレス数が足りなくなることが想定されるからv6が開発されたのですが互換性はありません。
我々がよく見るのはIPv4です。
ジオロケーション情報(位置情報)とはユーザーの位置情報を識別する技術です。
GPSやIPアドレス、Wi-Fiの電波強度などから取得できます。
ジオロケーション情報の一つでIPアドレスから取得する方法を「IP Geolocation」といいます。
これは国レベルであれあ同等であるが、都道府県レベルであれば同じ水準ではありません。(IPv6の普及がまだまだだから)
終わりにCookieについて再復習
ファーストパーティーCookie:自分が自分のサイトにどんな人が訪れているかなどの情報を確認することができる自社に直接発行されるCookie。外部に行ったときに情報は失われる。
サードパーティーCookie:自社のサイトに訪れた人が他にどんなサイトに訪れているのかなど外部サイトから発行されているCookie。広告ツールなどの分析のために使われる。
プライバシーサンドボックス:今までディスプレイ広告などの最適化はグーグルや別の分析会社が最適化した広告を我々のスマホなんかに届けていたが、それを我々のスマホの中で解決しようとする技術のこと。
フィンガープリント:ありとあらゆる箇所から個人の特定を行い、それによって広告やマーケティングに活かすスキル。
今回は以上です。