模型评测 | 网址分类目录 | AI导导导导导导航站

AI【文本生成】
AI【图像生成】
AI【视频动画】
AI【音频音乐】
AI【编程开发】
- 代码生成
- 框架平台
AI【办工助手】
AI【专业领域】
AI【学习教育】
AI【本地搭建】
AI工具使用随记

常用搜索工具社区生活求职

常用

百度
Google
站内
淘宝
Bing

搜索

百度
Google
360
搜狗
Bing
神马

工具

权重查询
友链检测
备案查询
PING检测
死链检测
关键词挖掘

社区

知乎
微信
微博
豆瓣
搜外问答

生活

淘宝
京东
下厨房
香哈菜谱
12306
去哪儿
快递100

求职

智联招聘
前程无忧
拉钩网
猎聘网

模型评测

AI驱动的技术领导者能力评估与成长平台

在线对比评测不同OCR模型识别准确率的平台

Parallax by Gradient

开源框架，用于在真实设备上大规模测试和评估AI模型

实时追踪和比较主流大语言模型性能数据的专业平台

Agent Compass

AI智能体性能评估与优化平台，帮助用户测试和提升AI代理表现

ChatGPT Pulse

实时监测ChatGPT对话质量与用户体验的智能分析工具

Embedding Atlas

由苹果开发的可视化高维嵌入向量探索工具，帮助理解AI模型中的语义关系

生物医学研究问答数据集和模型得分排行榜

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

由复旦大学NLP实验室推出的大模型评测基准

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

斯坦福大学推出的大模型评测体系

全方位的多模态大模型能力评测体系

一个综合性的大模型中文评估基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

AI大模型评测社区

中文通用大模型综合性测评基准

智源研究院推出的FlagEval（天秤）大模型评测平台

一个全面的中文基础模型评估套件

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

大规模多任务语言理解基准

Copyright © 2026 AI导导导导导导航站 Design by Webstack Modify byiowen