# 介绍 WP-Bench：WordPress AI 基准测试

*Published:* 2026-01-16
*Author:* 壳壳虫

语言模型对 WordPress 的理解程度究竟如何?为了回答这个问题,我们推出了 [WP-Bench](https://github.com/WordPress/wp-bench) —— WordPress 官方 AI 基准测试。

WP-Bench 评估 AI 模型对 WordPress 开发的理解程度,从核心 API[2](#c92cb2f3) 和编码标准到插件架构和安全最佳实践。

为什么 WP-Bench 很重要
----------------

WordPress 为超过 40% 的网站提供支持,但 AI 模型通常是在通用编程任务上进行评估的。WP-Bench 通过测量 WordPress 特定能力来填补这一空白。

**了解当今的模型。** 无论您是在构建 AI 驱动的插件还是使用编码助手,了解哪些模型在 WordPress 方面表现出色都能帮助您做出更好的工具选择。

**塑造未来的模型。** 我们希望 WP-Bench 成为 AI 实验室在开发新模型时使用的标准基准。当 OpenAI、Anthropic 和 Google 等提供商进行预发布评估时,我们希望 WordPress 性能在他们的关注范围内 —— 而不是事后才想到。这为数百万依赖 WordPress 的开发者和网站所有者创造了优化激励。

**构建开源排行榜。** 我们正在努力建立一个公开的排行榜,跟踪模型在 WordPress 任务上的性能。这将为社区提供透明的结果,为 WordPress 项目如何与 AI 提供商合作提供信息,并帮助开发者为他们的项目选择合适的工具。

工作原理
----

WP-Bench 从两个维度测量 AI 能力:

- **知识** —— 测试 WordPress 概念、API、钩子、安全模式和编码标准的多项选择题,重点关注 Abilities API 和 Interactivity API 等现代新增功能。
- **执行** —— 代码生成任务,由真实的 WordPress 运行时通过静态分析和运行时断言进行评分。

该基准使用 WordPress 本身作为评分器,在沙盒环境中运行生成的代码。这确保我们既测量理论理解,也测量生成符合标准的可工作代码的实际能力。

当前状态和已知限制
---------

WP-Bench 是早期版本,我们对需要改进的地方保持透明:

- **数据集规模** —— 当前测试套件相对较小。我们需要更多跨 WordPress API 和模式的测试用例,以使其成为全面的基准。
- **版本覆盖** —— 该基准目前偏向于 WordPress 6.9 的功能,如 Abilities API 和 Interactivity API。这部分是有意为之(较新的 API 是模型真正难以应对的地方),但也造成了偏差,因为这些功能晚于大多数模型的训练数据。我们需要更多对已建立的 WordPress 模式的覆盖,以创建平衡的评估。
- **基准饱和** —— 早期测试显示模型在较旧的 WordPress 概念上得分很高,这意味着这些问题没有提供强烈的信号。挑战在于找到真正困难的问题,而不仅仅是新问题。

这些限制正是我们现在发布而不是等待的原因。我们知道 WordPress 社区在帮助构建强大、有代表性的基准方面具有独特的优势。

快速开始
----

```
# 安装
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

# 启动 WordPress 运行时
cd runtime && npm install && npm start

# 运行基准测试
cd .. && wp-bench run --config wp-bench.example.yaml
```

在 `.env` 文件中配置您的模型提供商 API 密钥,结果将写入 `output/results.json`。该测试工具支持在单次运行中运行多个模型以便于比较。

支持 AI 构建块
---------

WP-Bench 通过测量 AI 模型与 WordPress 的配合程度来补充其他 [WordPress AI 构建块](https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/)。随着我们构建 Abilities API、MCP[3](#74d2555f) 适配器和其他基础设施,标准化的基准有助于确保这些工具与最佳可用模型集成。

参与其中
----

WP-Bench 需要您的帮助。基准测试的质量取决于其测试用例,而 WordPress 社区拥有数十年关于 WordPress 开发挑战的集体知识。

**贡献方式:**

- **添加测试用例** —— 知道一个让开发者困惑的棘手 WordPress 模式吗?它可能也会让 AI 困惑。我们需要覆盖更多 API、钩子和实际场景。
- **运行基准测试** —— 测试您正在使用的模型并分享您的发现。
- **改进评分逻辑** —— 帮助使评估更加严格。
- **提交结果** —— 为公开排行榜做出贡献。

如果您在 AI 实验室工作,我们很乐意就将 WP-Bench 集成到您的评估流程中进行合作。

**资源:**

- [WP-Bench GitHub[1](#8ca81878) 仓库](https://github.com/WordPress/wp-bench)
- [WordPress AI 构建块](https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/)

---

我们的目标是让 WP-Bench 成为 AI 提供商在发布新模型时使用的标准评估 —— 创建一个良性循环,使 WordPress 性能随着每一代的发展而提高。加入我们的 [\#core-ai](https://wordpress.slack.com/archives/C08TJ8BPULS) 频道讨论、分享结果,并帮助塑造 WordPress 中 AI 的未来。

### 名词解释

1. GitHub：全球最大的代码托管和协作开发平台 [↩︎](#8ca81878-link)
2. API：应用程序编程接口，软件之间交互的标准方式 [↩︎](#c92cb2f3-link)
3. MCP：AI 模型与外部工具交互的协议 [↩︎](#74d2555f-link)