Fitbit Charge 5対アップルウォッチ生体データ比較レビュー
この記事は約 15 分で読めます
このシリーズではスマートウォッチやスマートリングの健康管理・生体データ計測機能をレビューしています。
この記事では Fitbit Charge 5 とアップルウォッチを比較します。同社のフラグシップモデルであり私自身何年も愛用しているモデルです。
結論からいうと Fitbit Charge 5 は「皮膚温度」、「最大酸素摂取量 (VO2 Max) 」の計測が明らかにおかしかったです。特に皮膚温は病気で発熱した日でも違いを出すことができませんでした。また「心拍変動」、「血中酸素」については疑問が残る計測結果となりました。
統計解析も含めた詳しい比較結果をすべて公開します。
結果を知りたい人はまとめをお読みください。
レビュー方法
デバイスの装着と計測時間
上図に示すイメージでレビューを行いました。
左腕に Apple Watch (Series 8) と Fitbit Charge 5 を両方装着しました。
左手は私にとって非利き手です。 Fitbit の設定も「非利き手に装着」であることを確認しました。
日中、夜間を通して装着しデータを取り続けました。例外としてシャワー中のバッテリー充電 (18:00 – 20:00), 毎朝の体重計測時など一部非計測の時間帯があります。
計 1 か月間 (30 日間) データをとりました。
比較項目とデータ解析ツール
メーカーのアプリを使ってまずは基礎データを集計します。そして私の個人 PC にデータを手動でダウンロードしてさらに細かく分析します。
比較する項目は下記のとおりです。
- 歩数 (Steps)
- 安静時心拍数 (RHR: Resting Heart Rate)
- 心拍変動 (HRV: Heart Rate Variability)
- 呼吸数 (Respiratory Rate)
- 血中酸素 (Oxygen Saturation, SpO2)
- 皮膚温 (Skin Temperature)
- 最大酸素摂取量 (VO2 Max)
外部リンク:ヘルスサイエンス | Garmin (各計測項目の正常範囲などを参考)
分析のメインは折れ線グラフによる日々の傾向比較です。両デバイスが同じ傾向で計測できているか確認します。
同じ傾向かどうか、統計的には正の相関があるかどうかで判断できそうです。そのため相関係数 R も計算します。
一部の項目は t 検定による平均値の比較も行います。
この記事は論文ではないので本格的な統計処理はやりません。しかし簡易分析でも「両デバイスに有意な(計測の)差があるか」、「日々の計測が安定しているかどうか」といったことが t 検定でわかります。
どちらの計測精度が良いか、といった評価ではなく製品ごとのクセを明確にしたいと思います。
計測精度の観点でいえば、アップルウォッチの精度は良いはずです。アップルウォッチは医療機器認証(心電図のみ)を取得しています。
データ解析についての補足
興味のない方はここを飛ばして比較結果をお読みください。できるだけ細かくデータを分析するための条件や補足内容を書きます。
日中と夜間の心拍数全数分析は量が膨大になるので省略します。気になった場合のみ取り上げます。
皮膚温は ± 0.3 度といった形ですでに平均値計算が行われています。そのため t 検定の対象外となります。
VO2 Max の比較も参考程度とお考えください。 VO2 Max を正しく計測するにはトレッドミルのような設備が必要です。
またアップルウォッチによる VO2 Max の計測にはワークアウトをセットする必要があります。日々の生活や業務上毎日計測できていません。ただし休日など一日に複数回計測できた場合はその日の平均値を採用します。
VO2 Max の値は安静時心拍数から推定することができます。参考のために推定値の計算結果も比較します。デンマークの研究者グループによる推定方法を採用します。
外部リンク:最大酸素摂取量 – Wikipedia
各計測項目について、アップルウォッチは夜間のみ計測する項目と、日中/夜間問わず計測する項目があります。両デバイスとも同じ時間帯の計測結果を比較するため、アップルウォッチのデータはダウンロード後に時間帯を取捨選択したうえで集計・分析しました。
特に断りがなければ「歩数」、「最大酸素摂取量」、「安静時心拍数」は同日中 (0:00 – 23:59) のデータを採用します。その他の項目は睡眠中の時間帯 (0:00 – 6:00) に計測されたデータを採用します。
安静時心拍数について、アップルウォッチの計測は例外的です。一日に何度も計測しているはずですが、他の項目と違い計測結果が個別に記録されていません。そのためその日の最後にヘルスケアアプリで表示されていた結果を採用します。
グラフによる傾向比較結果
歩数
上図は歩数の傾向の比較結果です。
Apple Watch と Fitbit でグラフの大部分が重なりあっています。どちらのデバイスも同じように計測できていますね。
相関係数 R = 0.995 も非常に高い正の相関値です。
24 日目など一部数字に差がある日もありますが誤差の範囲内でしょう。大きな問題とは考えられません。
両デバイスともに同じように計測しているといえるでしょう。
安静時心拍数
上図は安静時心拍数の傾向の比較結果です。
Fitbit の方が値は高めに出ています。どうしてでしょうか?
過去の睡眠データ計測の経験より、アップルウォッチも Fitbit も心拍数そのものは比較的正確に測れていそうです。
しかし安静時心拍数は文字通り安静中の心拍数です。安静状態であればよいので一日の中でも計測できるタイミングが一回とは限りません。
アップルウォッチと Fitbit では違うタイミングで計測した値が採用されていると考えられます。
Fitbit は起床後にアプリでデータ収集しても安静時心拍数の値がアプリにすぐ反映されません。起床後に計測した値のどれかを安静時心拍数として採用している感じです。
一方アップルウォッチは安静中の心拍数の値が一日の中で何度か更新されます。つまり起床後の値で確定するとは限らず、夜寝る前の値を採用している日もあります。
定義上、どちらも安静時心拍数としては問題ありません。その点に気がつくのが遅すぎました。
相関係数 R = 0.344 は正の相関が少しはあるという結果です。やや傾向は似ているといえそうです。
グラフを見た限り各点の値の差は大きく感じます。統計解析でさらに詳しく比較しましょう。
心拍変動
上図は心拍変動の傾向比較結果です。
グラフをぱっと見て、 Fitbit の方が値が低いですね。
心拍変動はストレスレベルを知る重要な指標です。心臓はメトロノームではないのでストレスがないほど心拍変動は大きくなるといわれています。逆にストレスを感じているほど規則正しく心臓が動いている、つまり心拍変動は小さいといわれています。
アップルウォッチと Fitbit を比較すると、アップルウォッチは「ストレスレベルの高い人低い日(比較的リラックスできている日)両方ある」、 Fitbit は「常にある程度のストレスレベルにある」と解釈できます。
相関係数 R = 0.310 でやや相関あり。「両デバイスの計測結果は少しは似ているかもしれない」と解釈できます。
後ほど統計解析でさらに詳しく比較します。
呼吸数
上図は睡眠中の呼吸数の傾向比較結果です。
アップルウォッチは 1 日目のデータがとれていません。また Fitbit は 26 日目のデータがありません。
相関係数 R = 0.807 なので正の相関はあるといえるレベルです。つまり傾向としては両デバイスとも同じように計測しています。
ただし Fitbit は値がやや低めに出ています。
呼吸数は睡眠時無呼吸症候群かどうか判断する重要な指標です。この値が低いと「睡眠中に息をしていない=無呼吸状態」と考えられます。
Fitbit の計測結果は問題ないレベルですが一応気になります。
統計解析でさらに詳しくアップルウォッチとの違いを調べます。
血中酸素
上図は血中酸素の傾向比較結果です。アップルウォッチは 1 日目のデータがとれていません。
相関係数 R = 0.111 でした。相関なし、つまりアップルウォッチと Fitbit は同じような傾向を示していません。
前半部分はちゃんと計測していそうなのですが、後半はアップルウォッチと Fitbit で明らかに違う感じです。 Fitbit の方が高めに出ています。
統計解析を使ってさらに詳しく分析します。
皮膚温
上図は皮膚温の比較結果です。
Fitbit の方が全体的にプラス側に偏っている感じがしますね。
そもそも平均値(ベースライン)がわからないので比較は難しいのです。それにしても Fitbit はプラス・マイナスどちらも激しく振れているという印象です。
相関係数 R = 0.170 は相関しているとはいえない値です。つまり「アップルウォッチと Fitbit は同じように計測していない」といえます。
Fitbit の皮膚温計測については別の問題を見つけました。解説します。
上図は左腕に Fitbit, 右手にオーラリングを装着していて取れたデータです。
4 日目は高熱で一日中寝込んでいました。この日オーラリングの皮膚温度は +3.07 度と高い数値を出しています。一方 Fitbit は +0.3 度でした。
さらにオーラリングは数日前から皮膚温が高くなる傾向を示しています。つまり事前に体調不良を検知できていたと考えられます。オーラリングに高皮膚温通知機能がないのが残念です。
一方 Fitbit の皮膚温グラフでは体調不良を検知できません。
このデータがきっかけで Fitbit は正しくデータ計測できているのか?という疑問が出たのが今回レビューしたきっかけのひとつです。
残念ですが Fitbit は皮膚温計測について問題があると言わざるをえません。改善を希望します。
最大酸素摂取量
上図は最大酸素摂取量 (VO2 Max) の比較結果です。
Apple (Measured) はワークアウトで計測した結果、 Apple (Estimated) は安静時心拍数から推定した値です。 1 日目は安静時心拍数の値が計測できていないので推定もできていません。
Fitbit (Measured) はアプリが表示した値、 Fitbit (Estimated) は安静時心拍数から推定した値です。
Fitbit の測定値が明らかに高すぎます。もしこの値が正しければ私の心肺機能はアスリートレベルです。
メガビタミン (B 群) を始めてから突如として VO2 Max の数字が上がり始めました。嬉しい反面「何かおかしくないか?」と思っていました。データを比較した結果は明らかです。アップルウォッチの実測値が実態を表しています。正直 Fitbit にはがっかりしました。
関連記事:分子栄養学的血液検査とピンポイントサプリ摂取のすすめ
スポーツをしていない(筋トレはやっている)私のような 40 代前半男性からしたら、アップルウォッチの実測値が一番納得できます。
推定値同士を比較すると相関係数 R = 0.337 で少しは似た傾向を示しています。しかしアップルウォッチ、 Fitbit どちらの推定値もアップルウォッチの実測値より高いです。
計測精度をきちんと調べるには医療設備を使った検証が必要です。
ただはっきり言えること。それは Fitbit の VO2 Max の値は参考にならない、ということです。
統計処理の結果
難しい話になるので結果だけ知りたい人はここを飛ばして最後の「まとめ」をお読みください。
歩数
上図は歩数の t 検定の結果です。上図は箱ひげ図と呼ばれています。
グレーの箱と緑の箱、どちらも同じような位置と形です。違いは見られません。
傾向分析ですでに解説した通り、両デバイスともに同じように計測できています。
安静時心拍数
上図は安静時心拍数の t 検定の結果です。
黒いダイアモンド形の点は「外れ値」と呼ばれます。平均に対して著しく離れている値です。
平均値の比較の結果、統計的な有意差がありました。 p < 0.001 という結果は乱暴に言えば「この差が偶然起きた確率は 0.1 % 未満」です。
Fitbit の方がアップルウォッチよりも平均値が高く外れ値も多い。ただ Fitbit が示している下の外れ値はアップルウォッチなら計測範囲内で問題ありません。
傾向分析で指摘したように、 Fitbit は朝の時点での安静時心拍数、アップルウォッチは日中も考慮した安静時心拍数を採用していると考えられます。
つまり日中も含めた複数測定の中から最終的に決めているアップルウォッチの方が値にばらつきがある。 Fitbit は毎朝起床後の値を採用していると考えられるので同じ値周辺に固まった。
この違いであれば納得できます。
心拍変動
上図は心拍変動の t 検定の結果です。
平均値の比較の結果、統計的な有意差がありました。 p < 0.001 という結果は乱暴に言えば「この差が偶然起きた確率は 0.1 % 未満」です。
Fitbit の方が統計的にも平均値が低く、さらに下に外れ値があります。 Fitbit からしたら私は常にストレスにさらされている状態なのでしょうか? Fitbit は幅も小さくストレス変化に気がつくのも難しいかもしれません。
確かに私は海外就労しているとはいえ、日本人としてバリバリ仕事をしている方だと思います。そういう意味ではストレスレベルは高めかもしれません。
しかしそれでもアップルウォッチの計測結果には幅があります。休みもとっているのでリラックスしている日もあるはずです。
心拍変動の値がストレスレベルに関連している以上、この値は睡眠分析にも使っていると考えられます。
そう考えるとアップルウォッチがより正確に心拍も睡眠も分析できているのでは?と思うようになりました。
もちろんどちらのデバイスがより精度が良いか調べるには医療機器で調べる必要があります。
Fitbit の心拍変動はアップルウォッチよりも明らかに低く出る、というのは確かです。
心拍変動は数十ミリ秒単位で計測しています。心拍数を測るだけならそこまで高精度な心拍センサーは不要かもしれません。ただし心拍変動まで細かく計測するには高感度のセンサーが必要なのかも?という仮説は成立しそうです。
アップルウォッチと Fitbit で価格に大きな違いがあります。アップルウォッチの方が高価なセンサーを使っている可能性はあります。
呼吸数
上図は呼吸数の t 検定の結果です。
平均値の比較の結果、統計的な有意差がありました。 p < 0.01 という結果は乱暴に言えば「この差が偶然起きた確率は 1 % 未満」です。
両デバイスとも外れ値が出てます。しかし上側に出ているので「呼吸数が多い」ので問題ないでしょう。
どちらの計測結果が正しいのかはわかりません。医療設備と比較する必要があります。
睡眠時無呼吸症候群は疑われませんが、 Fitbit の計測する睡眠中の呼吸数はアップルウォッチよりも低めに出ることは統計的にも間違いないでしょう。
血中酸素
上図は血中酸素の t 検定の結果です。
平均値の比較の結果、統計的な有意差がありました。 p < 0.05 という結果は乱暴に言えば「この差が偶然起きた確率は 5 % 未満」です。
つまり Fitbit の血中酸素の平均値はアップルウォッチの平均値より高い、ということが言えます。図ではわかりにくいですが統計は違いを示しています。
Fitbit の計測結果と公式の解説に少し違和感があります。
Fitbit 公式はこのように解説しています。引用させていただきます。
血中酸素ウェルネス値は自然に変化しますが、夜間の血中酸素ウェルネスは日中の血中酸素ウェルネスより低いのが普通です。これは、睡眠中の呼吸数が通常遅いためです。
一般的に、睡眠中の血中酸素ウェルネス値は通常90%を超えます。
表示された血中酸素ウェルネス値は推定値であり、一般的にあなたの活動、高度、全体的な健康状態に影響されます。
日中と夜間では夜間の方が血中酸素の値は低めに出る、とのことです。しかし同じ夜間の計測なのにアップルウォッチより Fitbit の方が値は高い。
Fitbit にはグラフの下部には外れ値 (95.8 %) もあります。ただし上記の引用文に従えば 90 % 超えで通常範囲内です。しかし統計的には外れ値判定されました。
Fitbit 公式によると、血中酸素ウェルネスは推定値としています。推定値とはいえばらつきが小さく、少しでも値が低いと統計的には外れ値になってしまいます。
Fitbit の血中酸素計測にはこのような疑問が残ります。
まとめ
販売価格を考えたら Fitbit Charge 5 はコスパが高いです。
心電図計測もできて価格がアップルウォッチの約半分。魅力的なデバイスであることに変わりはありません。
しかし生体データの計測には不自然なところがある。何年も Fitbit を使っていて知らなかったことが今回のレビューではっきりしました。
この記事をまとめましょう。
- 歩数:両デバイスともに同じように計測できていて問題なし。
- 安静時心拍数:傾向はやや似ているが Fitbit の方が値が高く出た。 Fitbit は起床後に計測した心拍数の値を採用している思われるため、起床直後にアプリでデータを収集してもすぐに結果が表示されない。
- 心拍変動:傾向はやや似ているが Fitbit の方が値が低く出てばらつきが少ない。 Fitbit の計測ではストレスレベルが高く出て、かつストレス変化がわかりにくいかもしれない。
- 呼吸数:傾向は似ているが Fitbit の方が値がわずかに低めに出た。
- 血中酸素: アップルウォッチと Fitbit で同じ傾向にならなかった。 Fitbit は推定値を出すらしいがアップルウォッチより値が高くきちんと計測しているか疑問が残った。
- 皮膚温: Fitbit は正しく計測していない。高熱の出た日の皮膚温が他の日と違わず体調不良を検知できなかった。
- 最大酸素摂取量 (VO2 Max): Fitbit アプリが示す値は明らかに高すぎて参考にならない。
※このレビューは 2023 年 4 月に行いました。最新ソフトではこの記事で書かれた内容と相違があるかもしれません。
※このレビューではアプリは iPhone 版を主に使用しました。 Android 版でも大きな違いはないと想定してレビューしました。
※レビュー時点での Fitbit Firmware Version: 20001.188.58, Apple Watch OS version: 9.4 (20T253)
※この記事のデータ測定結果は診断結果ではありません。データを過信せず不調を感じた際にはかかりつけ医に相談してください。