4.1 🎓 醫學生版

對象:醫學系 M3-M6。這是內科最核心的「思考框架章」,後面所有疾病章節都建立在它之上。借用 Sir William Osler 的名言——「醫學是不確定性的科學,是機率的藝術(Medicine is a science of uncertainty and an art of probability)」——一句話道盡了行醫的本質:你面對的不是教科書裡乾淨的標準答案,而是在資訊不完整、結果無法保證的情況下,替眼前這個病人做出當下最好的決定。本章把現代行醫的功夫拆成三根支柱:臨床推理(clinical reasoning)、合理的診斷檢查使用與判讀、把最佳研究證據整合進臨床判斷(實證醫學 EBM)。讀的時候掌握一條主軸:先理解醫師「怎麼想」(雙系統 + 捷思 + 假設演繹),再學會用機率語言(貝氏定理)把檢查結果轉成可操作的決策,最後知道證據與決策如何回到病人身上(共享決策、guideline、降低診斷錯誤)。


4.1.0.1 📌 一頁重點

  • 行醫的本質是在不確定下做決策。即使在現代醫學成形百年後,它仍是一門「技藝(craft)」——不同醫師帶來不同程度的技巧與理解,而且至今沒有一套像西洋棋 Elo 那樣的客觀能力排名系統。
  • 雙系統思維(dual-process theory):System 1 快、直覺、靠 pattern recognition 與捷思(heuristics),不費力但說不清楚怎麼想出來的;System 2 慢、刻意、用 hypothetico-deductive 方法。專家有龐大的 pattern library 多以 System 1 為主,遇複雜或陌生問題切換 System 2。
  • 四個常見捷思與其陷阱:代表性(representativeness,忽略 base rate)、可得性(availability,被近期或聳動 case 放大)、錨定(anchoring,初診後調整不足)、簡約(Occam’s razor,可能忽略多重共病)。
  • 診斷驗證(diagnostic verification)是關鍵第二步:問「這個診斷能解釋所有症狀與檢查嗎(adequacy)?與病理機轉一致嗎(coherency)?」未驗證就下結論叫過早收斂(premature closure),是診斷錯誤的大宗。
  • 檢查特性:sensitivity(真陽性率)、specificity(真陰性率);口訣 SnNout(高 Sn 陰性可排除)/ SpPin(高 Sp 陽性可確診)。LR+ = Sn/(1−Sp),LR− = (1−Sn)/Sp。多數醫學檢查 LR+ 落在 1.5–20,LR+ >10 通常代表高 Sp 可 rule in,LR− <0.10 通常代表高 Sn 可 rule out
  • 貝氏思維:post-test probability 由 pre-test probability、sensitivity、specificity 三者決定。檢查在 pre-test 30–70%(最不確定)時最有用;太低或太高時做檢查往往不改變處置。
  • EBM 四步驟:提出問題 → 搜尋文獻 → 評讀證據(validity + relevance)→ 整合到個別病人(含病人偏好)。systematic review/RCT 雖高階但不是萬靈丹。
  • 診斷錯誤主要是「照護系統」的缺陷而非個人失誤;解法走系統層級(EHR 決策支援、提醒系統、checklist、經驗證的風險預測模型如 Wells PE)。

4.1.0.2 一、為什麼這章是內科的地基:不確定性與「臨床專業」

行醫的核心就是不斷做決定,而讓行醫如此困難的,不只是需要的專業技術知識,更是每個決定都被內在的不確定性包圍。原文講得很直白:醫學雖然深植於科學,常被當成像牛頓力學那樣可預測來教,但實務上每個環節都帶著「無法消除的不確定性」,醫師若忽視它就會付出代價。即使現代醫學成形已超過百年,它在本質上仍是一門技藝,不同醫師帶進不同程度的技巧、知識與理解。對二十一世紀的醫師來說,醫學文獻爆炸性成長、檢查與治療選項愈來愈多,要精熟的技能比過去任何世代都更龐雜。

那「臨床專業(clinical expertise)」到底是什麼?原文坦承這出人意料地難定義。西洋棋有客觀的排名系統,運動也有,但醫師在完成訓練、通過專科考(或重新認證)之後,並沒有任何測驗或標竿能標出誰達到了最高的臨床水準。每家機構往往有幾位「神級」臨床醫師,在別人都束手無策的疑難雜症上展現特殊的解題能力;但即使是這些大師,通常也說不清楚自己確切的思考過程,這使得這份專業難以被擷取與傳承。而且臨床上的爐火純青似乎無法一般化——一位肥厚性心肌病的專家,在診斷與處理「嗜中性球低下、發燒、低血壓」的病人時,可能不會比一位 R1 內科住院醫師更高明,甚至可能更差。正因如此,這章把焦點放在臨床推理的認知層面:這是少數有實證研究、也是醫學生最能練習與改進的部分。


4.1.0.3 二、醫師怎麼想:雙系統思維與 pattern recognition

一個實用的當代模型是雙系統思維(dual-process theory),把思考分成快與慢兩種。直覺(System 1)從記憶中的關聯快速、不費力地產生判斷,靠的是 pattern recognition 與各種「拇指法則」(也就是 heuristics)。原文舉了一個很簡單的例子:「黑人女性 + 肺門淋巴結腫大 = 肉樣瘤病(sarcoid)」。因為回想這個 pattern 不費力,醫師往往說不出這個判斷是怎麼形成的。相對地,分析(System 2)慢、有條理、刻意而費力:學生會去讀肺門淋巴結腫大的病因清單,從中找出黑人女性較常見的疾病,或檢查病人有沒有 sarcoid 會出現的皮膚或眼睛變化。這兩者其實是認知連續光譜上的兩個端點,方便描述,但對「如何培養臨床推理能力」其實著墨有限——這些理想化系統如何互動、專家與新手用法有何不同、何時會導致誤判,至今仍在研究與爭論。

pattern recognition 是 System 1 的核心,是一個看似毫不費力的複雜認知過程:你能在毫秒間認出人臉、狗的品種、車款,或只聽幾個音符就認出一首曲子,卻未必說得出是哪些特徵觸發了辨識。經驗豐富的醫師同樣能極快認出熟悉的診斷 pattern,關鍵在於擁有一個龐大的 pattern 庫可以快速取用。而當缺乏這樣的儲備時——學生,或專家走出自己熟悉的領域時——就只能改用比較費力的 System 2 分析法,搭配更密集、更全面的資料蒐集來達成診斷。

但 pattern recognition 本身不足以做出可靠診斷。沒有經過刻意、系統性的反思,未經訓練的 pattern recognition 會導致過早收斂(premature closure):在所有相關資料到齊之前,就誤以為自己抓到了正確診斷。 因此即使診斷看起來再明顯,都有一個關鍵的第二步——診斷驗證(diagnostic verification):思考這個診斷是否充分解釋了所有的症狀、徵象與輔助檢查發現。這正是專家與新手的分水嶺:專家會主動回頭問「這個診斷真的能解釋全部嗎?」

真實案例——過早收斂如何致命。 一位 45 歲男性因 3 週「類流感」上呼吸道感染(含呼吸困難與有痰的咳嗽)就診。急診醫師拿出一張「URI 評估表」做標準化問診,特別注意到沒有發燒、肺部聽診清澈,於是開了止咳藥、安撫病人說病情不嚴重。當晚病人在家整夜嚴重呼吸困難、接著噁心嘔吐、昏倒,被送回急診時已是心臟停止,無法救回。解剖顯示後壁心肌梗塞及右冠狀動脈的新鮮血栓。哪裡出錯了?急診醫師大概覺得病人「看起來很健康」(病人外觀不像「重病」很容易誤導判斷),所以在聽完檢傷護理師的概述後,還沒開始問病史就選用了 URI 評估流程,等於提早關上了其他可能性的大門。他因此沒問出完整的呼吸困難病史——其實那是用力時誘發、伴隨胸悶、休息會緩解,指向遠更嚴重的疾病。教訓很清楚:標準化表格不能取代完整病史,commit 診斷之前一定要做診斷驗證。


4.1.0.4 三、四個常見捷思(heuristics)與它們的陷阱

捷思是直覺系統的一部分,是通往結論的快速捷徑,但用錯就會出錯。原文點出兩個研究取向:「捷思與偏誤」program 強調這些捷徑如何導致錯誤判斷(但目前少有證據顯示,教醫師去提防那超過 100 種已知認知偏誤能真的降低診斷錯誤率);「快速簡約捷思」program 則探討簡單捷思何時能產生好決策。本章只談四個。

代表性捷思(representativeness):醫師依病人的症狀徵象與記憶中疾病 pattern 的相似度來生成診斷假設——也就是 pattern matching。例如高血壓病人合併頭痛、心悸、出汗,這組經典三聯症讓人聯想到嗜鉻細胞瘤(pheochromocytoma),但這樣判斷是錯的,因為其他造成高血壓的原因遠比嗜鉻細胞瘤常見,而這組症狀也會出現在沒有此病的人身上。陷阱就在於只看 pattern 相似度、忽略了該病低的盛行率(也就是 prior / pretest probability)。反過來,常見病的非典型表現也可能被低估。

可得性捷思(availability):依「過去類似 case 或結果有多容易被想起」來判斷。例如醫師可能記得一場 M&M 會議裡,一位老人以急性無痛呼吸困難表現、原本被當肺部問題查、最後其實是急性心肌梗塞,延誤診斷還導致缺血性心肌病變;若該 case 還牽涉醫療訴訟,記憶會更鮮明。罕見但災難性的結果(喉嚨痛最後變白血病、年輕運動員腿痛最後是骨肉瘤)、被媒體報導或近期親身經歷的 case,都會以與其真實機率不成比例的力道影響後續判斷。

錨定捷思(anchoring,又稱保守或黏著):拿到陽性(或陰性)檢查結果後,相對於貝氏定理,把疾病初始機率往上(或往下)調整得不夠——也就是死守初診。例如儘管運動灌注檢查陰性,醫師仍判斷冠狀動脈疾病(CAD)機率很高,硬是去做心導管。貝氏定理正是用來避免這種錨定偏誤的工具。

簡約捷思(Occam’s razor / simplicity):用一個能充分解釋病人所有症狀的最簡單診斷。雖然這原則很吸引人也常被用,但要記得它沒有生物學上的依據;它的錯誤包括過早收斂,導致忽略那些無法被單一診斷解釋的重要症狀或發現。(臨床上常拿來與 Hickam’s dictum 對照:後者主張「病人愛得幾個病就得幾個病」,提醒我們多重共病的老人未必能用一個診斷收尾。)


4.1.0.5 四、System 2 的主流程:假設演繹推理與診斷必行

面對複雜或陌生的診斷問題,醫師會切換到分析推理(System 2),有條理地走假設演繹模型(hypothetico-deductive model)。流程是:根據病人就診的主訴,先生成一份初始的診斷可能性清單(hypothesis generation);在問現病史的過程中,新資訊不斷與腦中的疾病模型對照,假設隨之增刪、機率上下調整(diagnostic refinement);接著用聚焦的理學檢查進一步區分這些工作假設——脾臟有沒有腫大?肝臟多大、會不會痛?有沒有可觸及的腫塊?最後做診斷驗證,檢驗工作診斷的 adequacy(能否解釋所有症狀徵象)coherency(症狀徵象是否與背後的病生理因果機轉一致)。舉例:若觸診摸到的腫大且明顯壓痛的肝臟被假設為急性肝炎,那特定的肝功能檢查(這是預測)就會明顯升高;若檢查結果正常,這個假設可能就得被丟棄、重新考慮其他可能。

這裡有個常被忽略的重點:陰性發現和陽性發現一樣重要,因為它們會降低正在考慮的假設機率。在活動量正常的病人身上,胸部不適若不被用力誘發或加重、也不被休息緩解,就降低了慢性缺血性心臟病的可能;陣發性心房顫動的病人若沒有靜息心搏過速、也沒有甲狀腺腫大,就降低了甲狀腺機能亢進的可能。

不過,病人病情的急性度可以凌駕盛行率等考量——這就是「診斷必行(diagnostic imperatives)」的概念:某些相對罕見、但若未診斷未治療會致命的狀況,必須主動排除。最經典的是急性嚴重胸痛要常規考慮主動脈剝離(aortic dissection):它的典型表現雖與心肌梗塞不同,卻可能模仿心肌梗塞,而且盛行率遠較低、誤治會致命。處理這類病人時應明確且常規地詢問剝離的相關症狀、量雙手血壓看有無落差、檢查有無脈搏短缺;若這些都陰性,醫師才能比較安心地放下這個假設。但如果胸部 X 光顯示可能的縱膈腔變寬,就要把假設重新拉回來,安排適當影像(如胸部 CT 血管攝影或經食道超音波)。反之,在非急性情境下,潛在替代診斷的盛行率就應該在假設生成中扮演更吃重的角色。


4.1.0.6 五、診斷檢查特性:用 gold standard 衡量準確度

做檢查的目的,是降低對診斷或預後的不確定性,以利做出適當處置。要注意——任何能改變醫師對病人問題理解的資訊都算「診斷檢查」,所以連病史與理學檢查都可視為診斷檢查。臨床上常把檢查結果簡化成二分(陽/陰、正常/異常),雖然這會壓縮掉有用資訊(例如異常的程度),卻方便說明判讀原則。

任何檢查的準確度最好相對於一個 gold standard(黃金標準)來評估:gold standard 陽性定義出有病的人,陰性則可靠地排除疾病(Table 4-1)。把新檢查與 gold standard 同時施用於合適族群,可整理成四格表與四個估計值:

檢查結果 有病(gold standard +) 沒病(gold standard −)
陽性 真陽性 TP 偽陽性 FP
陰性 偽陰性 FN 真陰性 TN
  • 敏感度 Sensitivity(真陽性率)= TP/(TP+FN):有病的人中有多少被測出陽性;偽陰性率 = FN/(TP+FN) = 1 − Sn。
  • 特異度 Specificity(真陰性率)= TN/(TN+FP):沒病的人中有多少被測出陰性;偽陽性率 = FP/(TN+FP) = 1 − Sp。

理論上完美的檢查 Sn 與 Sp 都是 100%,能完全區分有病與沒病。要記住一個看似矛盾的口訣,把「檢查技術上最擅長什麼」對應到「臨床上最有用在哪」:SnNout——高 Sn 的檢查,陰性(Negative)時有助於 rule out(排除)疾病;SpPin——高 Sp 的檢查,陽性(Positive)時有助於 rule in(確診)疾病

計算 Sn 與 Sp 需要先選一個判定「陽性」的閾值(cut point)。把閾值調嚴會降低 Sn、提高 Sp;調鬆則反之。這個權衡常用 ROC 曲線呈現:把 Sn(y 軸)對 1 − Sp(x 軸)作圖,曲線上每一點代表一個可能的 cut point。ROC 曲線下面積(AUC)常用來量化檢查的資訊含量,0.5 代表毫無診斷價值(等於擲銅板),1.0 代表完美;45 度線就是無預測價值的檢查。cut point 該怎麼選,理想上要反映「治療有病者 vs 沒病者的利害權衡」:若治療安全、效益大,可選高 Sn 的 cut point(如新生兒苯酮尿症 PKU 篩檢);若治療有顯著傷害風險,則選高 Sp 的 cut point(如癌症化療)。cut point 也可能取決於盛行率——低盛行率時,要更看重偽陽性的傷害(如婚前 HIV 檢查)或偽陰性的傷害(如捐血者 HIV 檢查)。


4.1.0.7 六、貝氏思維:把 pre-test 轉成 post-test

在沒有完美檢查的現實裡,每做完一個檢查,病人的真實疾病狀態仍然不確定。貝氏定理(Bayes’ rule)提供一個用簡單機率數學量化「修正後不確定性」的方法(也藉此避開錨定偏誤)。它從三個參數算出 post-test probability(檢查後的疾病機率):pre-test probability、檢查的 Sn、檢查的 Sp。pre-test probability 是檢查前對診斷可能性的量化估計,通常依族群盛行率(若已知)或臨床情境(年齡、性別、胸痛型態)來估;對 CAD 這類常見病,現成的 nomogram 與統計模型能納入病史、理學與檢查結果產生估計值。post-test probability 又稱檢查的預測值(predictive value),是把 pre-test 與檢查結果一起納入後、對診斷機率的重新校準。

原文特別提醒:predictive value(陽性/陰性預測值)常被誤解成檢查的「內在準確度」,但它其實是計算出來的機率,會隨族群盛行率而變。診斷檢查研究若用「測 Sn/Sp 的同一份樣本」去算預測值,除非後續套用到盛行率完全相同的族群,否則會誤導。因此較精確的講法是「陽性/陰性檢查後的 post-test probability」,優於含糊的 predictive value。

nomogram 版的貝氏定理(Fig. 4-2)用概似比(likelihood ratio, LR)來概括檢查結果的衝擊:LR 是「該檢查結果在有病者出現的機率」除以「在沒病者出現的機率」。 - LR+ = 真陽性率/偽陽性率 = Sn/(1 − Sp)。例如 Sn 0.90、Sp 0.90 的檢查,LR+ = 0.90/(1 − 0.90) = 9,代表陽性結果在有病者出現的可能性是沒病者的 9 倍。多數醫學檢查的 LR+ 落在 1.5–20,數值愈高愈能拉高 post-test 機率;LR+ >10 通常意味高 Sp,陽性可幫助 rule in(呼應 SpPin)。若 Sn 很好但 Sp 普通,LR+ 會大幅下降(例如 Sn 90%、Sp 55% 時 LR+ 僅 2.0)。 - LR− = 偽陰性率/真陰性率 = (1 − Sn)/Sp。數值愈低愈能拉低 post-test 機率;LR− <0.10 通常意味高 Sn,陰性可幫助 rule out(呼應 SnNout)。上述 Sn 0.90、Sp 0.90 的檢查 LR− = (1 − 0.9)/0.9 ≈ 0.11,代表陰性結果在有病者出現的可能性約只有沒病者的十分之一。

4.1.0.7.1 實戰:CAD 的兩個檢查

考慮兩個常用於診斷 CAD 的檢查。運動跑步機(treadmill)ST 段反應的平均 Sn 約 60%、Sp 約 75%,LR+ = 0.60/(1 − 0.75) = 2.4(屬中等偏弱,落在 2–5 之間)。運動 SPECT 心肌灌注掃描更準確,為簡化假設其 Sn 與 Sp 都是 90%,LR+ = 9.0(屬中等,落在 5–10 之間)。把它們套到不同病人:

  • 41 歲男性、非典型胸痛、無其他危險因子,pre-test 約 10%。treadmill 陽性後 post-test 只升到約 30%;換成更準的 SPECT,陽性後 post-test 升到約 50%。注意:即使 SPECT 比較準,把機率從「相當確定沒病」拉到 50:50,仍不足以改變處置(例如是否轉心導管)。
  • 60 歲男性、典型心絞痛、多重危險因子,pre-test 約 80%。treadmill 陽性後 post-test 約 95%,SPECT 陽性後約 97%——兩者差距極小,更準的檢查並沒有提供足以改變處置的額外信心,兩個檢查也都沒比單從臨床資料得知的多多少。

由此導出最重要的結論:檢查在醫師「最不確定」時(pre-test 約 30–70%)帶來的診斷機率變化最大。pre-test 太低時,任何陽性多半仍是偽陽性;pre-test 太高時,任何陰性也難以可靠排除(除非檢查 Sn 夠高)。原文另舉一例呈現低盛行率的威力:在無危險因子的首次女性捐血者篩檢 HIV,即使 Sp 高達 99.995%,由於盛行率僅 0.01%,陽性結果也只把 HIV 可能性提到約 67%——這正是低盛行率族群篩檢要特別看重 Sp 的原因。

最後幾個重要的簡化前提要知道:多數檢查並非只有「陽/陰」二分,而是多維結果(如 ST 段下降程度、運動時間、症狀);做連續檢查時雖可把前一個的 post-test 當下一個的 pre-test,但這假設了條件獨立,臨床上常不成立。還有,「Sn 與 Sp 不受盛行率影響」這個常被引用的說法其實常常不對——例如 treadmill 在單條血管 CAD 族群 Sn 僅約 30%,在嚴重三條血管 CAD 接近 80%;住院/轉診族群通常疾病較嚴重、盛行率較高,使 Sn 偏高,而門診族群 Sp 偏高。


4.1.0.8 七、個人化與共享決策

現代治療決策的理想是「個人化(personalize)」:把「什麼有效」的最佳證據,結合病人獨特的特徵(危險因子、基因體、共病)與偏好、健康目標,和病人一起打造最適建議。原文點出兩個互補的層次:一是依病人特徵個別化各選項的利害(精準醫療 precision medicine);二是把病人對各種健康結果的偏好與價值觀納入決策過程,這後者常稱為共享決策(shared decision-making)——醫師分享各選項及其後果與取捨的知識,病人分享自己的健康目標(例如為了幾個月後參加孫子婚禮,寧願避開冠狀動脈繞道手術的短期死亡風險)。

要特別澄清:「個別化治療證據」不等於靠醫師個人經驗對效益與傷害的印象。由於非隨機選擇、樣本小、事件罕見,從自身臨床經驗推導因果的出錯機率非常高。對多數慢性病,治療反應是一個「反事實」概念,只能在大族群統計上展現——你無法確定某位高血壓病人是因為吃了 ACE 抑制劑才沒中風,也無法確定沒治療的人若治療就一定不會中風。因此療效應建立在大族群、設計良好、分析正確的研究上,而非單一病人的觀察。可信賴的臨床指引能為許多決策提供規範性指引,但所有指引都承認「一體適用」未必適合個別病人,這也是「治療效果異質性(heterogeneity of treatment effects)」研究與經驗證風險分數存在的理由。


4.1.0.9 八、EBM 四步驟與證據階層

實證醫學(EBM)把傳統「醫學知識 + 直覺 + 判斷」的行醫定義,加重了「醫師如何主動取得最新、最相關的臨床研究,並自行判斷介入是否真能改變病程、延長壽命或改善生活品質」這個面向。EBM 在 1990 年代初由 McMaster 大學的倡議者提出,其原意可從四個關鍵步驟看清楚:

  1. 提出(Ask):把要回答的處置問題formulate成可搜尋的形式。
  2. 搜尋(Acquire):搜尋文獻與線上資料庫找出可用的研究資料。
  3. 評讀(Appraise):評估蒐集到的證據的 validity(效度)與 relevance(相關性)。
  4. 整合(Apply):把評讀結果與病人獨特面向(含病人對結果的偏好)整合起來。

由於搜尋與評讀世界文獻既耗時又需要多數醫師沒受過的訓練,在繁忙臨床上不切實際,因此實務上常以「找近期的 systematic review(系統性回顧)」當捷徑。systematic review 被部分人視為證據階層的最高層,因為它用預先定義、可重現的搜尋策略與納入/排除標準,盡可能找全相關研究並評分品質,藉此避開敘事性回顧的偏誤(原型即 Cochrane Database);必要時用 meta-analysis 量化彙整。但原文也潑了冷水:systematic review 並非一律是 EBM 的巔峰——當可用試驗很少、試驗與觀察性研究混雜、或證據基礎僅為觀察性時,價值就不明確;它無法彌補底層研究的缺陷,而且醫學文獻如今充斥品質參差的 systematic review,同儕審查也未能有效把關,因此要審慎使用、搭配選讀最佳的原始研究。

證據來源方面要建立的觀念:發展可靠證據的主要工具是隨機對照試驗(RCT),輔以高品質的大型觀察性登錄資料。RCT 靠隨機分配,是對抗(已測與未測)治療選擇偏誤的最佳保護(內在效度好),但若招募過程排除大量符合資格者、或族群太異質,外在效度(可推廣性)可能不佳;而且 RCT 品質與適用性差異很大。COVID-19 疫情是慘痛的提醒:疫情前 7 個月就有超過 4 萬篇出版,但多為小型觀察性系列或其回顧,對預防、診斷、治療、預後仍留下巨大不確定性——這類小型觀察研究可生成假設或率先回報不良事件,但無法用來制定現代的執業標準


4.1.0.10 九、降低診斷錯誤:這是系統議題

高品質的醫療始於正確的診斷。診斷錯誤的發生率可用解剖、病歷回顧、醫療糾紛索賠等不同方法估計,彼此互補。過去傾向把診斷錯誤視為個別醫師的失誤,但現代觀點認為它主要是『照護系統』的缺陷;目前估計幾乎每個人一生至少會經歷一次診斷錯誤,帶來死亡、病態、不必要的檢查與處置、成本與焦慮。

既然問題是「系統」,解法就走系統層級:把決策支援與其他工具整合進電子病歷(EHR);用 checklist 來減少前面談到的過早收斂等認知錯誤(checklist 在手術室與加護病房已證實有用,但用於預防會造成病人不良後果的診斷錯誤,效果仍待證實)。此外,經適當驗證的風險預測模型能比醫師腦中或單純貝氏定理處理更多變數——如 ACC/AHA 一級預防 statin 風險計算器、心房顫動抗凝的 CHA₂DS₂-VASc,部分模型(多為血栓/抗凝與敗血症相關)已嵌入 EHR。但原文反覆強調:「在獨立於開發族群之外的族群中進行驗證」的重要性怎麼強調都不為過——未經驗證的風險模型,應以對待未經嚴格臨床試驗的新藥或新醫材的同等懷疑來看待。目前只有少數模型驗證充分,肺栓塞的 Wells criteria(Table 4-2)是其中之一。

關於把 AI 當決策支援,原文立場明確:AI(神經網路、機器學習/深度學習、生成式 AI 如大型語言模型 GPT-4)在影像、皮膚病灶判讀、撰寫臨床記錄上有潛力,但目前的熱情仍超過其在臨床照護中已證實的效用;尤其令人憂心的是,早期證據顯示醫師即使在 AI 提供的資訊明顯錯誤或矛盾時,仍願意信賴它。對學生與經驗較少的醫師,決策支援最大的價值或許在於擴展診斷可能性、觸發「理性推翻(rational override)」,但仍需謹慎而全面的測試才能導入臨床。


4.1.0.11 🎯 醫學生最該記住的 7 件事

  1. 行醫的本質是在不確定下做決策——掌握思考框架比背誦更重要;醫學至今仍是一門技藝,沒有客觀的能力排名系統。
  2. 雙系統思維:System 1 快直覺靠 pattern、System 2 慢分析靠假設演繹;專家多用 System 1,遇複雜/陌生切 System 2。
  3. 四個捷思陷阱:代表性(忽略 base rate)、可得性(被近期/聳動 case 放大)、錨定(初診後調整不足)、簡約(可能忽略多重共病)。
  4. 診斷驗證(adequacy + coherency)是專家與新手的分水嶺;未驗證就下結論=過早收斂,是診斷錯誤大宗。
  5. SnNout / SpPin 與 LR:LR+ = Sn/(1−Sp)、LR− = (1−Sn)/Sp;LR+ >10 多為高 Sp 可 rule in、LR− <0.10 多為高 Sn 可 rule out
  6. 貝氏思維:post-test 由 pre-test、Sn、Sp 決定;檢查在 pre-test 30–70% 時最有用,太低/太高時做檢查常不改變處置(CAD treadmill LR+ 2.4、SPECT LR+ 9 為經典例)。
  7. EBM 四步驟(Ask→Acquire→Appraise→Apply)診斷錯誤主要是系統議題,解法走 EHR 決策支援、checklist、經獨立驗證的風險模型(如 Wells PE);AI 是工具,切勿把決策完全交給演算法。

來源:Harrison 22e Ch.004。診斷檢查四格表(Table 4-1)、ROC(Fig. 4-1)、貝氏 nomogram(Fig. 4-2)、Wells PE 評分(Table 4-2)均對照原文。(台灣臨床:共享決策已納入健保推動的醫病共享決策(SDM)制度,臨床上應主動與病人討論選項與偏好。)