Recommender Playground from yltsai
內容商應當最在意的指標 - 顯示了所有物品有多少被推薦出去,指標有很多種方式定義,以下是最簡單的一種定義(同時也被使用在RecModel
中)
from : 推薦系統實踐
by category - category coverage.
by - popularity level - popularity level coverage.
能夠被離線計算的指標,通常看Recall,來評估在訓練集所收集的時間區段中,平均每$a$個使用者點擊會有$b$個是系統推薦
這兩個指標是以點擊數量作為評估標準,容易失準的地方就是有的使用者很愛點擊東西,或是有機器人一直點擊,會把點擊數衝高
from : 推薦系統實踐
同Recall,但以使用者數量作為評估基準,單個使用者就算有30個點擊且系統推薦出5個,hits不會是5,仍然是1
乱弹机器学习评估指标AUC 570+ 【技术分享】六:搜索排序—指标介绍与选择
- 幾何觀點 - ROC 曲線下的面積 (True Positive Rate vs False Positive Rate)
- 機率 & 組合觀點 - 給定一個正樣本和副樣本對,在 x % 的比例下,模型對於正樣本的預測分數會高於負樣本的預測分數
- 實際分數不重要,相對關係比較重要
- 通常點擊模型的 AUC 低於 購買轉化的 AUC,正負樣本之間的平均 GAP 越大, AUC 就會越大
- 所有的 postive-negtive pair 在計算上是等價的,這可能不實際,例如 userA 和 userB, or sessionA 和 sessionB,解決方案是 group normalized AUC
- 線下指標要對應到線上指標,產生高相關係數,才可繼續優化 offline metrics
- 審慎 review training, val dataset,沒有考慮時間時,容易造成穿越
- 排除 bug,線上線下預測要符合預期