2024年12月の観察研究によると、急性腹痛患者における虫垂炎の早期診断を目的とした2つの機械学習モデルは、診断精度においてAlvaradoスコアを上回り、救急医をも凌駕しました。
2016年から2023年にかけて、オランダの教育病院で急性腹痛を呈して救急部に来院した336人の患者
HIVEモデル: 問診、バイタルサイン、病歴、身体診察情報を使用
HIVE-LABモデル: 上記に加え、標準的な血液検査結果を含む
Alvaradoスコア
救急医3名による診断(読影研究)
主なアウトカムは虫垂炎の診断精度:AUROC (受信者動作特性曲線下面積) によって評価
後ろ向き観察研究
HIVEモデル: AUROC 0.919
HIVE-LABモデル: AUROC 0.923
Alvaradoスコア: AUROC 0.824
救急医: AUROC 0.791〜0.894 (検査結果なし) → 0.859〜0.923 (検査結果あり)
MLモデルはAlvaradoスコアおよび一部の救急医を統計的に有意に上回る性能を示した。
Schipper A, Belgers P, O’Connor R, Jie KE, Dooijes R, Bosma JS, et al. Machine-learning based prediction of appendicitis for patients presenting with acute abdominal pain at the emergency department. World J Emerg Surg. 2024;19(40). doi:10.1186/s13017-024-00570-7
急性腹痛(AAP)は救急部(ED)への全来院の5~10%を占め、虫垂炎はその主要な原因の一つ。
虫垂炎の診断は、症状や原因の多様性により困難で、診断遅れや誤診が発生しやすい。
診断補助ツールとしてAlvaradoスコアなどのスコアリングシステムがあるが、特異度が低く偽陽性が多い。
機械学習(ML)モデルは複雑なデータパターンを処理でき、虫垂炎診断の精度向上に期待されている。
既存のMLモデルは、手術候補を特定することに重点が置かれており、EDでの初期診断に統合されたモデルは少ない。
この研究では、EDにおけるAAP診療プロセスに統合可能なMLモデルを開発し、従来のスコアリングシステムや救急医と比較することでその性能を評価した。
論文では以下のように記載されています。
XGBoost(eXtreme Gradient Boosting):決定木に基づくブースティングアルゴリズムで、分類タスクで高い性能を発揮する手法です。本研究では、このアルゴリズムを採用して虫垂炎と他の急性腹痛の原因を区別しました。
利点:
高い予測精度
欠損値の処理能力が高い
パラメータ調整による柔軟性
データの収集:2016年から2023年にかけて、オランダの病院で急性腹痛患者336例のデータを収集。問診情報、バイタルサイン、身体診察所見、血液検査結果などを含む。
モデルの種類:
HIVEモデル: EDでの問診、バイタルサイン、身体診察を使用。
HIVE-LABモデル: 上記に加え、血液検査データも活用。
データ前処理:
データの欠損や不均衡を補正するため、標準化されたプロセス(例: バランスの取れたサンプリング)を使用。
カテゴリデータはターゲットベースエンコーディング法(CatBoostエンコーディング)を適用し、数値データとして処理。
訓練データと検証データ:
データセットは80%を訓練用(n=268)、20%を検証用(n=68)に分割。
訓練には10分割の層化クロスバリデーションを実施し、モデルの安定性を確保。
評価指標:
パラメータ調整:
SHAP値(SHapley Additive exPlanations)を使用し、モデルが予測において重視した特徴量を分析。
本研究では、AI技術の一種であるXGBoostを用いて、診断支援に特化したMLモデルを開発しました。このモデルは、臨床データを効率的に活用し、特に問診や身体診察など限られたデータでも高い診断精度を達成することが特徴です。
Alvaradoスコアは、急性虫垂炎を診断するための臨床スコアリングシステムです。1986年にAlfredo Alvaradoによって提案され、患者の症状、徴候、検査所見を数値化して診断の助けにするシンプルで実用的なツールです。
以下の8つの項目で構成されており、合計スコアは0~10点です:
0~4点: 虫垂炎のリスクは低く、通常はさらなる精査は不要。5~6点: 疑わしい症例であり、さらなる診断検査(例: 画像診断)が必要。7~10点: 虫垂炎のリスクが高く、緊急手術やさらなる検査が考慮される。
研究では、AlvaradoスコアのAUROC(受信者動作特性曲線下面積)が0.824と報告され、機械学習モデル(HIVEおよびHIVE-LAB)の0.919および0.923を下回りました。これにより、Alvaradoスコアの診断精度は限定的であり、特に複雑な臨床状況では機械学習モデルの方が有用である可能性が示唆されています。
ML: Machine Learning(機械学習)→ データを用いてモデルを作成し、診断や予測を支援する人工知能の一分野。
AUROC: Area Under the Receiver Operating Curve(受信者動作特性曲線下面積)→ モデルの診断精度を評価する指標。値が1に近いほど性能が良い。
XGBoost: eXtreme Gradient Boosting→ 高い予測精度を持つ勾配ブースティングアルゴリズムの一つ。
SHAP: SHapley Additive exPlanations→ 機械学習モデルの予測結果における各特徴量の寄与度を示す解析法。
HIVE: History Intake Vitals Examination(問診、バイタルサイン、身体診察)→ MLモデルの一つで、検査データを使用せず診断する。
HIVE-LAB: History Intake Vitals Examination Laboratory Tests(問診、バイタルサイン、身体診察、検査データ)→ 検査データを追加したMLモデル。
MANTRELS: Migration, Anorexia, Nausea-vomiting, Tenderness in right lower quadrant, Rebound pain, Elevation of temperature, Leukocytosis, Shift to the left→ Alvaradoスコアで使用される評価項目の頭文字。
データ収集時の患者背景:年齢、性別、初診時の症状、バイタルサイン、病歴、身体診察所見。
データ分布の均衡化:虫垂炎患者と他のAAP原因患者の比率を調整し、モデルのバイアスを軽減。
モデル開発で使用されたアルゴリズム(XGBoost)は、欠損データを処理できるため、データ不均衡の影響を最小化。
他施設間での診療プロセスの違い:この研究は単一施設で実施されたため、外部妥当性に限界がある。
ED医師の経験や診療スタイルの違い:モデル比較に使用された医師のスキルが一般化できない可能性。
地域的な医療アクセスやトリアージシステムの違い:この研究はオランダの医療環境に依存している。
単一施設での実施
データの多様性の不足
手動でのデータ前処理
ラボデータ依存の制約
一部の重要因子の過小評価の可能性
MLモデルの統合の課題
外部検証の欠如
診断フロー全体への影響不明
※情報収集・要約記事作成に生成AIを活用しています。