AI资讯新闻榜单内容搜索-大模型评测

司南首期多模态模型闭源榜单发布！48个模型同台竞技，谁将脱颖而出？

基于闭源评测基准，近期司南针对国内外主流多模态大模型进行了全面评测，现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型，其中包含：3 个国内 API 模型：GLM-4v-Plus-20250111 (智谱)，Step-1o (阶跃)，BailingMM-Pro-0120 (蚂蚁)

来自主题: AI技术研报

11854 点击 2025-03-06 19:45

易慧智能发布汽车行业大模型评测集，并重磅推出模型路由技术方案

10月25日，汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业首个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果，特别关注于汽车营销场景的应用评估。在此基础上，易慧智能重磅推出创新的模型路由技术方案——基于多模型的YiAgent群体智能技术框架。

来自主题: AI资讯

6816 点击 2024-10-26 11:11

11项指标击败GPT-4o！360攒局让16家大模型联手作战，组成最强“六边形战士”

终于，国产大模型能在综合能力上也能与GPT-4o一决雌雄了。

来自主题: AI资讯

11006 点击 2024-08-05 14:25

大模型常用评测基准汇总

基于评测维度，考虑到各评测集关注的评测维度，可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯

14901 点击 2024-07-23 19:24

国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品

2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯

12071 点击 2024-05-17 17:25

清华SuperBench全球测评出炉，Claude 3拿下多个冠军！合成数据才是人类未来？

就在最近，清华大学SuperBench团队的新一轮全球大模型评测结果出炉了！

来自主题: AI技术研报

6955 点击 2024-05-02 17:20

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五

关于Llama 3，又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单，Llama 3位列第五，英文单项与GPT-4并列第一。

来自主题: AI资讯

10764 点击 2024-04-23 14:20

新测试基准发布，最强开源Llama 3尴尬了

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。

来自主题: AI资讯

5048 点击 2024-04-22 20:58

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯

10357 点击 2024-03-01 13:47

谁在评价大模型？AI大模型评测榜单乱象调查

新华社研究院发布了《人工智能大模型体验报告2.0》，对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型，最终讯飞星火排名第一，百度文心一言排名第二，阿里通义千问排在倒数第二。

来自主题: AI资讯

11899 点击 2023-09-24 12:43