语言模型对 WordPress 的理解程度究竟如何? 为了回答这个问题, 我们推出了 WP-Bench —— WordPress 官方 AI 基准测试。
WP-Bench 评估 AI 模型对 WordPress 开发的理解程度, 从核心 API 和编码标准到插件架构和安全最佳实践。
为什么 WP-Bench 很重要
WordPress 为超过 40% 的网站提供支持, 但 AI 模型通常是在通用编程任务上进行评估的。 WP-Bench 通过测量 WordPress 特定能力来填补这一空白。
了解当今的模型。 无论您是在构建 AI 驱动的插件还是使用编码助手, 了解哪些模型在 WordPress 方面表现出色都能帮助您做出更好的工具选择。
塑造未来的模型。 我们希望 WP-Bench 成为 AI 实验室在开发新模型时使用的标准基准。当 OpenAI 、 Anthropic 和 Google 等提供商进行预发布评估时, 我们希望 WordPress 性能在他们的关注范围内 —— 而不是事后才想到。这为数百万依赖 WordPress 的开发者和网站所有者创造了优化激励。
构建开源排行榜。 我们正在努力建立一个公开的排行榜, 跟踪模型在 WordPress 任务上的性能。这将为社区提供透明的结果, 为 WordPress 项目如何与 AI 提供商合作提供信息, 并帮助开发者为他们的项目选择合适的工具。
工作原理
WP-Bench 从两个维度测量 AI 能力:
- 知识 —— 测试 WordPress 概念、 API 、钩子、安全模式和编码标准的多项选择题, 重点关注 Abilities API 和 Interactivity API 等现代新增功能。
- 执行 —— 代码生成任务, 由真实的 WordPress 运行时通过静态分析和运行时断言进行评分。
该基准使用 WordPress 本身作为评分器, 在沙盒环境中运行生成的代码。这确保我们既测量理论理解, 也测量生成符合标准的可工作代码的实际能力。
当前状态和已知限制
WP-Bench 是早期版本, 我们对需要改进的地方保持透明:
- 数据集规模 —— 当前测试套件相对较小。我们需要更多跨 WordPress API 和模式的测试用例, 以使其成为全面的基准。
- 版本覆盖 —— 该基准目前偏向于 WordPress 6.9 的功能, 如 Abilities API 和 Interactivity API 。这部分是有意为之 (较新的 API 是模型真正难以应对的地方), 但也造成了偏差, 因为这些功能晚于大多数模型的训练数据。我们需要更多对已建立的 WordPress 模式的覆盖, 以创建平衡的评估。
- 基准饱和 —— 早期测试显示模型在较旧的 WordPress 概念上得分很高, 这意味着这些问题没有提供强烈的信号。挑战在于找到真正困难的问题, 而不仅仅是新问题。
这些限制正是我们现在发布而不是等待的原因。我们知道 WordPress 社区在帮助构建强大、有代表性的基准方面具有独特的优势。
快速开始
# 安装
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python
# 启动 WordPress 运行时
cd runtime && npm install && npm start
# 运行基准测试
cd .. && wp-bench run --config wp-bench.example.yaml
在 .env 文件中配置您的模型提供商 API 密钥, 结果将写入 output/results.json 。该测试工具支持在单次运行中运行多个模型以便于比较。
支持 AI 构建块
WP-Bench 通过测量 AI 模型与 WordPress 的配合程度来补充其他 WordPress AI 构建块。随着我们构建 Abilities API 、 MCP 适配器和其他基础设施, 标准化的基准有助于确保这些工具与最佳可用模型集成。
参与其中
WP-Bench 需要您的帮助。基准测试的质量取决于其测试用例, 而 WordPress 社区拥有数十年关于 WordPress 开发挑战的集体知识。
贡献方式:
- 添加测试用例 —— 知道一个让开发者困惑的棘手 WordPress 模式吗? 它可能也会让 AI 困惑。我们需要覆盖更多 API 、钩子和实际场景。
- 运行基准测试 —— 测试您正在使用的模型并分享您的发现。
- 改进评分逻辑 —— 帮助使评估更加严格。
- 提交结果 —— 为公开排行榜做出贡献。
如果您在 AI 实验室工作, 我们很乐意就将 WP-Bench 集成到您的评估流程中进行合作。
资源:
我们的目标是让 WP-Bench 成为 AI 提供商在发布新模型时使用的标准评估 —— 创建一个良性循环, 使 WordPress 性能随着每一代的发展而提高。加入我们的 #core-ai 频道讨论、分享结果, 并帮助塑造 WordPress 中 AI 的未来。




发表回复