全面评估大语言模型的认知能力

LLM高级能力测评套件是一个系统化的测试框架,旨在评估大语言模型在多轮复杂交互中的高级认知能力,特别是其作为"认知引擎"的潜力。通过25个结构化测试支柱,我们能够全面评估模型在逻辑推理、角色扮演、多智能体协作等维度的表现。

开始使用

核心特性

我们的测评框架具备以下关键特性,确保评估的科学性和全面性

🧪

25个测试支柱

从基础能力到前沿能力,系统化评估LLM在不同维度的表现,覆盖逻辑推理、角色扮演、认知生态系统等。

🧩

多维度评估

结合定量和定性指标,全面分析模型性能,包括成功率、响应时间、一致性、创新性等。

🔬

科学方法论

采用假设驱动的测试方法,控制变量,确保评估结果的科学性和可重复性。

🔄

可扩展架构

模块化设计,支持添加新的测试能力和模型提供商,适应不断发展的LLM技术。

测试体系

25个结构化测试支柱,分为四个层次,全面覆盖LLM的认知能力

基础层

基础能力 (1-8)

逻辑推理、指令遵循、结构化操作、长上下文处理、领域知识、工具使用、任务规划、元认知

高级层

高级能力 (9-19)

创意生成、角色扮演、多角色协作、任务图谱生成、项目管理、并行任务优化、多学科分解

前沿层

前沿能力 (20-24)

海量角色共识、动态角色切换、项目管理集成、并行任务优化、多学科分解

生态系统层

认知生态系统 (25)

角色独立性、认知多样性、集体智能、系统韧性、幻觉抵抗能力

测试原理与原则

我们的测试方法基于科学严谨的原则,确保评估结果的准确性和可重复性

科学评估原则

  • 控制变量: 每次测试只改变一个变量,确保结果的可比性
  • 可重复性: 所有测试都有明确的步骤和参数,确保其他研究者可以重复实验
  • 定量与定性结合: 既使用数值指标也采用专家评估,全面衡量模型表现
  • 基准对比: 与已知性能的模型进行对比,提供相对性能评估
  • 统计显著性: 使用统计学方法验证结果的可靠性

测试支柱详解

基础能力层 (Pillars 1-8)

  • 逻辑推理 (Pillar 1): 评估数学计算、逻辑判断和推理能力
  • 指令遵循 (Pillar 2): 测试模型精确执行复杂指令的能力
  • 结构化操作 (Pillar 3): 验证模型处理JSON、XML等格式化输出的能力
  • 长上下文处理 (Pillar 4): 评估模型理解和处理超长文本的能力
  • 领域知识 (Pillar 5): 测试模型在专业领域的知识应用能力
  • 工具使用 (Pillar 6): 验证模型调用工具和API集成的能力
  • 任务规划 (Pillar 7): 评估多步骤任务分解和执行能力
  • 元认知 (Pillar 8): 测试模型自我反思和错误修正能力

高级能力层 (Pillars 9-19)

  • 创意生成 (Pillar 9): 评估创新思维和创意解决方案生成能力
  • 角色扮演 (Pillar 10): 测试深度角色扮演和身份一致性维持能力
  • 多角色协作 (Pillar 11): 验证多角色对话管理和协作能力
  • 任务图谱生成 (Pillar 12): 评估复杂任务分解和依赖关系分析能力
  • 项目管理 (Pillar 13): 测试复杂项目规划和执行能力
  • 并行任务优化 (Pillar 14): 验证并行任务调度和优化能力
  • 多学科分解 (Pillar 15): 评估跨学科知识融合和应用能力
  • 角色信念体系 (Pillar 16): 测试角色内在信念和价值观的一致性
  • 情感模拟 (Pillar 17): 验证情感表达和情感一致性维持能力
  • 道德推理 (Pillar 18): 评估道德判断和伦理决策能力
  • 文化适应性 (Pillar 19): 测试跨文化理解和适应能力

前沿能力层 (Pillars 20-24)

  • 海量角色共识 (Pillar 20): 评估50-200个角色的大规模协作能力
  • 动态角色切换 (Pillar 21): 测试角色间的动态切换和状态维护能力
  • 项目管理集成 (Pillar 22): 验证复杂项目的状态图建模能力
  • 并行任务优化 (Pillar 23): 评估复杂依赖关系的分析能力
  • 多学科分解 (Pillar 24): 测试6-7个学科的知识融合能力

认知生态系统 (Pillar 25)

  • 认知生态系统: 评估大规模多智能体系统的协作能力,包括角色独立性、认知多样性、集体智能、系统韧性和幻觉抵抗能力

高级能力测试

  • 创意生成 (Pillar 9): 评估创新思维和创意解决方案生成能力
  • 角色扮演 (Pillar 10): 测试深度角色扮演和身份一致性维持能力
  • 多角色协作 (Pillar 11): 验证多角色对话管理和协作能力
  • 认知生态系统 (Pillar 25): 评估大规模多智能体系统的协作能力

核心模块

两个核心模块深度评估LLM的高级认知能力

角色独立性测试系统

评估LLM在多轮对话中保持角色身份一致性的能力

  • 破功测试: 通过压力测试检测角色信念体系的稳定性
  • 隐式认知测量: 通过隐式提示探测模型的深层认知结构
  • 纵向演化分析: 追踪模型在长时间对话中的角色演化轨迹

认知生态系统

模拟多智能体协作的认知生态系统

  • 角色生成: 生成具有不同背景、观点、专业领域的角色
  • 共识算法: 实现PoW、PoS、PBFT等区块链共识算法
  • 协同编辑: 多角色协作编辑和冲突解决
  • 状态管理: 大规模角色的状态追踪和管理

安装部署指南

详细步骤帮助您快速搭建LLM测评环境

1

系统要求

确保您的系统满足以下要求:

  • Python 3.8或更高版本
  • 至少8GB内存(推荐16GB)
  • 至少20GB可用磁盘空间
  • 支持CUDA的GPU(可选,用于加速测试)
  • 稳定的互联网连接
2

获取项目

从GitHub克隆项目到本地:

git clone https://github.com/your-username/llm-advanced-testing-suite.git
cd llm-advanced-testing-suite
3

创建虚拟环境

为项目创建独立的Python环境:

python -m venv venv
# Windows
venv\Scripts\activate
# Linux/Mac
source venv/bin/activate
4

安装依赖

安装项目所需的Python包:

pip install -r requirements.txt
# 如需开发功能,安装开发依赖
pip install -r requirements-dev.txt
5

配置环境

设置环境变量和模型配置:

# 复制配置模板
cp config/.env.example config/.env
# 编辑配置文件
nano config/.env

配置模型信息到 config/models.txt:

openai/gpt-4:
  type: openai
  api_key: ${OPENAI_API_KEY}
  base_url: https://api.openai.com/v1

ollama/llama3:
  type: ollama
  model_name: llama3
  base_url: http://localhost:11434/api
6

启动服务

启动Ollama服务(如使用本地模型):

# Windows
start /b ollama serve
# Linux/Mac
ollama serve &

下载测试所需的模型:

ollama pull qwen2:7b
ollama pull llama3
ollama pull gemma:7b

快速上手

5分钟内运行第一个LLM能力测试

1

运行基础测试

运行一个简单的测试来验证安装是否成功:

python simple_test.py
2

运行特定测试支柱

执行基础逻辑推理测试(Pillar 1):

python -c "from tests.test_pillar_01_logic import run_test; run_test('qwen2:7b')"
3

运行完整的测试套件

使用主编排器运行多个测试:

python scripts/main_orchestrator.py --model qwen2:7b --test test_pillar_01_logic.py test_pillar_02_instruction.py
4

查看实时结果

启动可视化界面查看测试进度:

python visual_test_interface.py
5

生成分析报告

生成详细的测试分析报告:

python results/report_generator.py --model qwen2:7b --output reports/my_analysis.html

目标用户

我们的测评框架适用于以下用户群体

🧑‍🔬

AI研究人员

评估LLM认知能力,验证新模型性能,推动AI技术发展

💻

开发者

选择最适合应用场景的LLM模型,优化系统设计

🏢

企业技术团队

评估AI解决方案,确保技术选型符合业务需求

🎓

学术机构

进行LLM能力研究,发表学术论文,推动学科发展

关于 AgentPsy

AgentPsy 是一个专注于AI智能体心理学研究的项目平台

AgentPsy 项目介绍

AgentPsy 是一个综合性平台,专注于AI智能体的心理学研究和评估,包括认知能力、行为模式和社会互动等方面。我们致力于理解AI智能体的内在心理过程,探索其与人类认知的异同。

我们特别关注AI智能体在复杂环境中的行为表现,以及其在多智能体系统中的协作与竞争机制。通过深入研究AI智能体的心理学特性,我们旨在为AI安全、AI对齐和AI伦理等领域提供科学依据。

欲了解更多关于AgentPsy的信息,请访问我们的主站:https://agentpsy.com

中国大陆用户请访问:https://cn.agentpsy.com

AgentPsy 与本项目的关系

LLM高级能力测评套件是AgentPsy平台的重要组成部分,专门用于评估大语言模型的认知能力。

我们相信,对LLM认知能力的深入评估是理解AI智能体心理过程的基础。通过本项目,我们能够系统地分析LLM在多轮复杂交互中的表现,评估其角色独立性、认知一致性以及多智能体协作能力。

这些评估结果将为AgentPsy平台的其他研究项目提供重要数据支持,帮助我们更好地理解AI智能体的认知机制,并为AI系统的安全性和可靠性提供评估工具。