0) 中心化公式

本次 quadratic model 使用:

  • cBeta1 = Beta1 - mean(Beta1)
  • cBeta1² = (Beta1 - mean(Beta1))²

這樣做的目的,是降低 Beta1Beta1² 之間的共線性,讓模型參數更穩定、也比較好解釋。

補充檢查:

  • 原始 Beta1Beta1² 的相關:r = 0.9696
  • 中心化後 cBeta1cBeta1² 的相關:r = 0.5756
  • quadratic model 的 VIF
    • BAI_T1 = 6.3550
    • BDI_T1 = 6.7963
    • cBeta1 = 1.4354
    • cBeta1_sq = 1.6007

解讀:

  • 中心化後,Beta1 與平方項的相關明顯下降。
  • cBeta1cBeta1_sqVIF 都低,表示平方項本身沒有嚴重共線性問題。

1) 巢套邏輯斯迴歸:linear vs quadratic

模型log-likelihoodAICBIC
linear-20.336248.672456.6284
quadratic-17.090944.181754.1267
interaction-18.896049.791961.7258
full-16.348546.697160.6200

重點:

  • quadraticAIC / BIC 都比 linear 小,表示加上平方項後,模型複雜度雖然增加,但整體仍較划算。
  • interaction 單獨加入後沒有比 linear 更好。

2) 二次項係數(cBeta1_sq

quadratic 模型係數:

  • cBeta1 = 0.7659, p = 0.2016
  • cBeta1_sq = -0.5554, p = 0.0631

解讀:

  • 平方項方向是負的,比較接近「倒 U 型」關係。
  • p = 0.0631 屬於邊緣顯著,單看這個係數本身,證據不算最強。
  • 但因為整體模型比較(見下方 LR test)有顯著,所以不能只看這一個 p 值。

3) Likelihood ratio test(模型整體比較)

reducedfullLR statdfp
linearquadratic6.490710.0108
linearinteraction2.880520.2369
quadraticfull1.484720.4760
linearfull7.975330.0465

重點:

  • linear -> quadraticp = 0.0108,支持加上平方項後,整體模型顯著改善。
  • linear -> interaction 不顯著,表示單純加交互作用沒有明顯幫助。
  • quadratic -> full 不顯著,表示在已有平方項後,再加交互作用沒有額外明顯增益。

4) 交叉驗證與 LOSO

模型10-fold OOF AUCBrierLog lossCalibration interceptCalibration slopeLOSO AUC
linear0.89020.13800.4578-0.60620.87720.9008
quadratic0.93230.10770.3853-0.49091.05330.9338
interaction0.90230.13310.4388-0.58270.93050.9068
full0.93680.10650.3816-0.47081.07580.9338

重點:

  • quadratic10-fold AUCLOSO AUC 都高於 linear
  • quadraticBrierlog loss 也都比 linear 低,表示不只排序更好,機率預測也更穩。
  • calibration 方面,quadratic 的 slope 更接近 1,整體比 linear 更接近理想狀態。

5) Overfitting檢查:bootstrap optimism correction

模型apparent AUCmean optimismoptimism-corrected AUC
linear0.92630.01680.9095
quadratic0.95040.01320.9371
interaction0.93380.01870.9151
full0.95640.01770.9387

重點:

  • quadratic 的 optimism-corrected AUC 仍高於 linear
  • 表示平方項的增益不是只出現在 apparent fit,比較不像只是 sample-specific overfitting。

6) interaction 分開測

模型interaction termterm pAICBICLR vs linear p
linear + Beta1 × BAIcBAI_x_cBeta10.305349.683159.62800.3199
linear + Beta1 × BDIcBDI_x_cBeta10.109147.806257.75110.0905

解讀:

  • Beta1 × BAI 沒有證據顯示可改善 linear model。
  • Beta1 × BDI 有一些訊號,但仍未達顯著。
  • 目前資料不支持「非線性主要只是來自 interaction」這個解釋。

7) spline 與 GAM

restricted cubic spline formal test

testreducedfullLR statdfp
overall Beta1 effectBAI + BDIBAI + BDI + spline(Beta1)10.502140.0328
nonlinearity beyond linearBAI + BDI + linear(Beta1)BAI + BDI + spline(Beta1)10.358830.0158

解讀:

  • spline model 對 Beta1 的整體效果顯著。

  • nonlinearity beyond linear p = 0.0158,表示 spline 也支持「Beta1 不只是線性關係」。

  • cubic spline proxy

    • OOF AUC = 0.9323
    • Brier = 0.1074
    • Log loss = 0.3900
  • GAM`

    • OOF AUC = 0.9068
    • AIC = 44.3051
    • smooth term p = 0.00353
    • explained deviance pseudo-R² = 0.5052

解讀:

  • spline proxy 的表現與 quadratic 很接近。
  • GAM 的 smooth term 顯著,表示即使不預設一定是平方項,資料本身仍支持 Beta1 和失眠之間存在非線性關係。

8) 目前最保守的結論

  • 最能直接支持老師建議的主證據是:linear vs quadratic LR test p = 0.0108
  • 單看平方項係數本身是邊緣顯著:cBeta1_sq p = 0.0631
  • AIC / BIC10-fold AUCLOSO AUCbootstrap optimism-corrected AUC 都支持 quadratic 優於 linear
  • GAM smooth term 也顯著,表示非線性不只是平方模型硬套出來的結果
  • 分開測 Beta1 × BAIBeta1 × BDI 後,也沒有比平方項更強的證據
  • spline 的 formal nonlinearity test 亦顯著,表示 quadratic、spline、GAM 三條證據方向一致

九、圖片

Fig 1. Beta1 分組失眠比例 + LOWESS

  • 高端尾巴(z-score:1~3)樣本數比較少,可能要比較謹慎解讀?
  • LOWESS 在高端有下降傾向

Fig 2. 固定 BAI/BDI 平均值時的 linear vs quadratic 預測機率曲線

Fig 3. Calibration curve

Fig 4. GAM probability curve