AI网站、程序、应用、学习、搜索导航基础

模型评测

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

链接直达手机查看

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标，共 600 多个维度的全面评测，任务维度包括 22 个主客观评测数据集和 84433 道题目。

相关导航

ChatGPT Pulse

实时监测ChatGPT对话质量与用户体验的智能分析工具

Embedding Atlas

由苹果开发的可视化高维嵌入向量探索工具，帮助理解AI模型中的语义关系

Agent Compass

AI智能体性能评估与优化平台，帮助用户测试和提升AI代理表现

Mozilla 0DIN AI Scanner

扫描AI聊天机器人漏洞的安全工具

LLM Stats

实时追踪和比较主流大语言模型性能数据的专业平台

Sup AI

AI集成系统，通过置信度加权减少幻觉

发表回复取消回复
要发表评论，您必须先登录。

相关导航

发表回复 取消回复

发表回复取消回复