語言模型對 WordPress 的理解程度究竟如何? 為了回答這個問題, 我們推出了 WP-Bench —— WordPress 官方 AI 基準測試。
WP-Bench 評估 AI 模型對 WordPress 開發的理解程度, 從核心 API 和編碼標準到插件架構和安全最佳實踐。
為什麼 WP-Bench 很重要
WordPress 為超過 40% 的網站提供支持, 但 AI 模型通常是在通用編程任務上進行評估的。 WP-Bench 通過測量 WordPress 特定能力來填補這一空白。
瞭解當今的模型。 無論您是在構建 AI 驅動的插件還是使用編碼助手, 瞭解哪些模型在 WordPress 方面表現出色都能幫助您做出更好的工具選擇。
塑造未來的模型。 我們希望 WP-Bench 成為 AI 實驗室在開發新模型時使用的標準基準。當 OpenAI 、 Anthropic 和 Google 等提供商進行預發佈評估時, 我們希望 WordPress 性能在他們的關注範圍內 —— 而不是事後才想到。這為數百萬依賴 WordPress 的開發者和網站所有者創造了優化激勵。
構建開源排行榜。 我們正在努力建立一個公開的排行榜, 跟蹤模型在 WordPress 任務上的性能。這將為社區提供透明的結果, 為 WordPress 項目如何與 AI 提供商合作提供信息, 並幫助開發者為他們的項目選擇合適的工具。
工作原理
WP-Bench 從兩個維度測量 AI 能力:
- 知識 —— 測試 WordPress 概念、 API 、鈎子、安全模式和編碼標準的多項選擇題, 重點關注 Abilities API 和 Interactivity API 等現代新增功能。
- 執行 —— 代碼生成任務, 由真實的 WordPress 運行時通過靜態分析和運行時斷言進行評分。
該基準使用 WordPress 本身作為評分器, 在沙盒環境中運行生成的代碼。這確保我們既測量理論理解, 也測量生成符合標準的可工作代碼的實際能力。
當前狀態和已知限制
WP-Bench 是早期版本, 我們對需要改進的地方保持透明:
- 數據集規模 —— 當前測試套件相對較小。我們需要更多跨 WordPress API 和模式的測試用例, 以使其成為全面的基準。
- 版本覆蓋 —— 該基準目前偏向於 WordPress 6.9 的功能, 如 Abilities API 和 Interactivity API 。這部分是有意為之 (較新的 API 是模型真正難以應對的地方), 但也造成了偏差, 因為這些功能晚於大多數模型的訓練數據。我們需要更多對已建立的 WordPress 模式的覆蓋, 以創建平衡的評估。
- 基準飽和 —— 早期測試顯示模型在較舊的 WordPress 概念上得分很高, 這意味着這些問題沒有提供強烈的信號。挑戰在於找到真正困難的問題, 而不僅僅是新問題。
這些限制正是我們現在發佈而不是等待的原因。我們知道 WordPress 社區在幫助構建強大、有代表性的基準方面具有獨特的優勢。
快速開始
# 安裝
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python
# 啓動 WordPress 運行時
cd runtime && npm install && npm start
# 運行基準測試
cd .. && wp-bench run --config wp-bench.example.yaml
在 .env 文件中配置您的模型提供商 API 密鑰, 結果將寫入 output/results.json 。該測試工具支持在單次運行中運行多個模型以便於比較。
支持 AI 構建塊
WP-Bench 通過測量 AI 模型與 WordPress 的配合程度來補充其他 WordPress AI 構建塊。隨着我們構建 Abilities API 、 MCP 適配器和其他基礎設施, 標準化的基準有助於確保這些工具與最佳可用模型集成。
參與其中
WP-Bench 需要您的幫助。基準測試的質量取決於其測試用例, 而 WordPress 社區擁有數十年關於 WordPress 開發挑戰的集體知識。
貢獻方式:
- 添加測試用例 —— 知道一個讓開發者困惑的棘手 WordPress 模式嗎? 它可能也會讓 AI 困惑。我們需要覆蓋更多 API 、鈎子和實際場景。
- 運行基準測試 —— 測試您正在使用的模型並分享您的發現。
- 改進評分邏輯 —— 幫助使評估更加嚴格。
- 提交結果 —— 為公開排行榜做出貢獻。
如果您在 AI 實驗室工作, 我們很樂意就將 WP-Bench 集成到您的評估流程中進行合作。
資源:
我們的目標是讓 WP-Bench 成為 AI 提供商在發佈新模型時使用的標準評估 —— 創建一個良性循環, 使 WordPress 性能隨着每一代的發展而提高。加入我們的 #core-ai 頻道討論、分享結果, 並幫助塑造 WordPress 中 AI 的未來。




發表回覆