甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

东倒西歪
• 阅读 168

夕小瑶科技说 分享 Lucy,是距今320万年最早的人类祖先,也是被输入某种“物质”后大脑开发到100%的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优,大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同,如何最快速地判断机器是否能正确理解人类的知识和语言,成为我们共同关注的问题。

由此,甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval,能够通过对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。 甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

Lucy的每一个字母背后都代表了不同的意义,包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

L - Linguistic Fundamentals: 基础理解能力 U - Utilization of Knowledge: 知识运用能力 C - Cognitive Reasoning: 推理能力 Y - Yield of Specialized Outputs: 特殊生成能力 "Lucy" 包含以下含义:

Linguistic Fundamentals (基础理解能力) :描述模型对基础语法、词汇和句子结构的理解程度。 Utilization of Knowledge (知识运用能力):衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力):评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力):测试模型在生成特定类型或风格的文本(例如诗歌、代码或专业文章)时的效能。

目前,LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试 Massive Multitask Chinese Understanding 2023年4月25日,针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状,甲骨易AI研究院率先发布(首发)了一套大规模多任务中文大模型理解能力测试。 测试所包含的题目来自医疗、法律、心理学和教育四个科目的11900个问题,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合理解能力。

论文链接: https://arxiv.org/abs/2304.12986

中文大模型多学科生成能力自动化评测基准 Chinese Generation Evaluation 目前领域内的评测大多都只针对模型的中文理解能力,通过选择题由模型直接生成答案,或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度,这些评测基准就存在很大的局限性。

在率先发布国内首个中文大模型理解能力测试后,甲骨易AI研究院于8月9日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含11000道题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目。题型分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式Gscore,使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试,包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循! ▲本次受测中文大语言模型 从所有模型在六大类科目的平均分来看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循! ▲本次受测中文大语言模型平均得分

受测模型在其他学科的表现详见评测地址:http://lucyeval.besteasy.com/

未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。

论文链接:https://arxiv.org/abs/2308.04823

更多相关资讯: 首个中文大模型理解能力测试集 首个中文大模型多学科生成能力自动化评测基准

点赞
收藏
评论区
推荐文章
笑面虎 笑面虎
4个月前
【完结9章】AI大语言模型 ChatGPT从0到1打造私人智能英语学习助手
【完结9章】AI大语言模型ChatGPT从0到1打造私人智能英语学习助手视频课程分享——AI大语言模型ChatGPT从0到1打造私人智能英语学习助手,完结19章。附源码下载。深度学习的子领域中有两个重要的概念:大型语言模型(LLMs)和生成式人工智能(Ge
何婆子 何婆子
3个月前
极客时间-AI大模型应用开发实战营
AI大模型应用开发实战:探索未来的智能应用download》https://chaoxingit.com/4303/随着人工智能(AI)技术的快速发展,AI大模型的应用开发已成为当今热门话题。AI大模型是指大型、复杂的人工智能模型,它们具有强大的自然语言处
高耸入云 高耸入云
2个月前
【OJAC近屿智能】AIGC大模型工程师和产品专家训练营
在21世纪的科技浪潮中,人工智能(AI)已经深入到各个领域,而大语言模型(LLM)作为AI的核心技术,更是引领着未来的发展方向。近屿智能很高兴为您推出全新的大语言模型学习课程,带您探索无限可能,开创美好未来!AIGC大模型工程师和产品专家训练营是精心设计的
乐和 乐和
1个月前
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)download》chaoxingit.com/4898/LLM大语言模型算法特训:带你转型AI大语言模型算法工程师一、引言随着人工智能技术的飞速发展,自然语言处理(NLP)作为其核心领域之
乐和 乐和
1个月前
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)download》shanxueit.com/4702/LLM大语言模型算法特训:引领你转型为AI大语言模型算法工程师随着人工智能技术的飞速发展,大语言模型已经成为了一个热门的研究领域。LL
韦康 韦康
1个月前
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)download》quangneng.com/4927/LLM大语言模型算法特训概述语言模型是一种人工智能算法,旨在将自然语言转化为计算机可以理解和处理的形式。大语言模型(LargeLang
灵吉菩萨 灵吉菩萨
4星期前
AI人人必修-提示词工程+大模型多场景实战(丰富资料)业务创新
AI大模型:推进人工智能开展的强大引擎随着人工智能技术的不时开展,AI大模型成为了当前研讨的热点之一。AI大模型是指范围庞大、参数众多的人工神经网络模型,具有强大的计算和学习才能,可以完成高度自动化的任务和决策。本文将引见AI大模型的概念、开展现状、应用场
韦康 韦康
3星期前
AI大模型系统实战 | 更新完
AI大模型系统实战|更新完download》itzcw.com/8556/AI大模型系统实战:构建智能化应用的关键随着人工智能技术的快速发展,AI大模型系统在各个领域都发挥着重要作用。本文将介绍AI大模型系统的构建实战,探讨如何利用这些系统构建智能化应用,
程秉 程秉
2星期前
LLM大语言模型算法特训 带你转型AI大语言模型算法工程师
LLM大语言模型算法特训带你转型AI大语言模型算法工程师download》chaoxingit.com/4898/LLM大语言模型算法特训:探索AI大语言模型算法工程师之路导语:随着人工智能技术的不断发展,大语言模型(LargeLanguageModels
程秉 程秉
2星期前
AI人人必修-提示词工程+大模型多场景实战(丰富资料)超清完结
AI人人必修提示词工程大模型多场景实战(丰富资料)超清完结download》chaoxingit.com/4973/AI的介绍人工智能(AI)是一种模拟人类智能的技术,旨在让机器能够执行类似于人类的思维和决策过程。AI的发展涉及多个领域,包括机器学习、深
东倒西歪
东倒西歪
Lv1
乡心新岁切,天畔独潸然。
文章
2
粉丝
0
获赞
0