在线对比评测不同OCR模型识别准确率的平台
开源框架,用于在真实设备上大规模测试和评估AI模型
实时追踪和比较主流大语言模型性能数据的专业平台
AI智能体性能评估与优化平台,帮助用户测试和提升AI代理表现
实时监测ChatGPT对话质量与用户体验的智能分析工具
由苹果开发的可视化高维嵌入向量探索工具,帮助理解AI模型中的语义关系
生物医学研究问答数据集和模型得分排行榜
H2O.ai推出的基于Elo评级方法的大模型评估系统
由复旦大学NLP实验室推出的大模型评测基准
以众包方式进行匿名随机对战的LLM基准平台
斯坦福大学推出的大模型评测体系
全方位的多模态大模型能力评测体系
一个综合性的大模型中文评估基准
上海人工智能实验室推出的大模型开放评测体系
AI大模型评测社区
中文通用大模型综合性测评基准
智源研究院推出的FlagEval(天秤)大模型评测平台
一个全面的中文基础模型评估套件
Hugging Face推出的开源大模型排行榜单
大规模多任务语言理解基准
在线对比评测不同OCR模型识别准确率的平台