微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持

秦可卿
• 阅读 200

大型语言模型(LLM)已成为处理自然语言和汇聚世界知识的尖端技术,呈现了令人惊叹的自然语言理解和生成能力。然而,人类的语言远不止自然语言那么简单,特别是在科学研究领域,比如化学,存在着极其复杂且精确的专业语言体系,例如用表示分子结构的化学语言(SMILES),这些语言体系拥有自己独特的词汇系统,与日常所用的自然语言有着极大的不同。

为了促进对科学语言的理解,推动科学大语言模型 (Sci-LLM)落地,大模型语料数据联盟最新发布了精心构建的高质量化学语言微调数据集——ChemData,提供了7,000,000条用于指令微调(Instruction Tuning)的问答对,覆盖了广泛的化学领域专业知识,为增强化学语言模型的能力、推动化学研究和创新带来突破性进展提供了丰富多样且高质量的数据。快来一睹为快。

一、数据集简介

ChemData是大模型语料数据联盟成员单位上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)精心构建的大规模数据集,旨在为化学语言模型的微调提供支持,从而提高、释放其全部化学潜力。

1.数据集来源

为确保化学语言模型的有效性,获取多样化且高质量的数据集至关重要。因此,研究团队从大量的知名在线数据库中收集了海量化学数据,这其中包括了PubChem、ChEMBL、ChEBI、ZINC、USPTO、ORDerly、ChemXiv、LibreTexts Chemistry、Wikipedia和Wikidata等等。基于这一系列在线数据库,研究团队构建了ChemData数据集。

2.数据集构成

ChemData包含了7,000,000条用于指令微调(Instruction Tuning)的问答对。同时,ChemData覆盖了广泛的化学领域专业知识,主要面向三种化学任务类型:分子(Molecules)、反应(Reactions)以及其它特定领域(Domain-specific)任务。

● 分子(Molecules)具体而言,分子相关的任务包括名称转换(Name Conversion)、文生分子(Caption2Mol)、分子生文(Mol2Caption)和分子属性预测(Molecular Property Prediction),这些任务旨在优化、提升语言模型对化学分子的理解能力。

● 反应(Reactions)与反应相关的任务涵盖了逆合成(Retrosynthesis)、产物预测(Product Prediction)、产率预测(Yield Prediction)、温度预测(Temperature Prediction)和溶剂预测(Solvent Prediction),涵盖了化学反应的各个方面。

● 其它特定领域(Domain-specific)此外,所有无法明确分类的其他数据都归类为特定领域任务,这些数据提升了化学语言模型对整个化学领域的理解。

数据的具体分布图 1所示:
微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持
图 1 ChemData数据分布图,包含了九项化学核心任务

二、数据质量验证

借助ChemData,化学领域的研究人员和实践者可以利用丰富多样且高质量的数据,增强化学语言模型的能力,从而为化学研究和创新带来突破性进展。 

利用该数据集训练的ChemLLM模型在化学任务上表现出色

上海人工智能实验室AI for Science团队利用ChemData对InternLM2-chat-7B进行了训练,得到了化学大模型ChemLLM。实验结果表明,ChemData对模型化学能力的提高具有显著的作用,在一些化学任务上,ChemLLM的表现超越了GPT-4。相关的实验结果见图 2。

(ChemLLM demo 体验地址:https://openxlab.org.cn/apps/detail/OpenScienceLab/ChemLLM

微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持
图 2 不同模型在ChemBench上的表现

ChemData可以指导模型学会求解高考化学题,即使涉及到复杂的推理,经过训练后的模型也可以精确地进行解答;除此之外,ChemData能做到的还有很多很多。
微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持
图 3 ChemLLM在解答高考化学题上的表现

三、数据集下载

当前数据集的1/10已经开源发布至 OpenDataLab:https://opendatalab.com/AI4Chem/ChemData700K

论文地址:https://arxiv.org/pdf/2402.06852v2化学大模型ChemLLM demo

体验地址:https://openxlab.org.cn/apps/detail/OpenScienceLab/ChemLLM

诚邀您即刻使用ChemData并加入我们的社区,为您的化学语言模型注入新的活力以及沟通相关合作!我们真诚地期待您的反馈。

更多数据集,请访问OpenDataLabhttps://opendatalab.org.cn/

点赞
收藏
评论区
推荐文章
不是海碗 不是海碗
3年前
超火的 ChatGPT,APISpace 让你一分钟免费接入
ChatGPT是一个基于GPT3.5(GenerativePretrainedTransformer3.5)的语言模型,用于处理自然语言问答。GPT3.5是由人工智能公司OpenAI开发的一种大型神经网络模型,能够处理自然语言文本。ChatGPT是基于GPT3.5模型构建的,能够根据用户输入的问题,生成自然语言的回答。
Stella981 Stella981
4年前
Perseus
一,背景——横空出世的BERT全面超越人类2018年在自然语言处理(NLP)领域最具爆炸性的一朵“蘑菇云”莫过于GoogleResearch提出的BERT(BidirectionalEncoderRepresentationsfromTransformers)模型。作为一种新型的语言表示模型,BERT以“摧枯拉朽”之势横扫包括语言问答、
数据堂 数据堂
2年前
自然语言理解数据与大语言模型的关系
自然语言理解数据在大语言模型中扮演着至关重要的角色。大语言模型是一种能够理解和生成自然语言的计算机程序,能够识别和学习语言中的规律和模式。自然语言理解数据是通过对自然语言进行标注和注释而生成的数据,其中包含了语法、语义、上下文、情感等信息。这些数据可以帮助
“智汇语言·驭领未来”——系列特辑:LLM大模型信息获取与企业应用变革
“智汇语言·驭领未来”——系列特辑:LLM大模型信息获取与企业应用变革原创认真的飞速小软飞速创软2024011609:30发表于新加坡本期引言LLM(LargeLanguageModel)大型语言模型以其自然语言理解和生成能力,正以前所未有的力量革新我们获
幂简集成 幂简集成
1年前
国外7个最佳大语言模型 (LLM) API推荐
大型语言模型()API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下,LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API,开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面,我们将比较从Bard到C
花母 花母
2年前
小白也能看懂的ChatGPT知识介绍
ChatGPT其工作原理是通过深度学习算法和自然语言处理技术,生成与给定输入相关的文本或回答。ChatGPT的核心是一个大型语言模型,它被训练成能够理解和生成自然语言,包括词语、短语、句子和段落。这个模型使用了大量的语言数据,包括文章、书籍、新闻报道和互联
数据堂 数据堂
2年前
ChatGPT在自然语言处理中的局限性和挑战
随着人工智能技术的不断发展,自然语言处理已经成为人工智能领域中备受瞩目的重要研究方向。ChatGPT作为自然语言处理技术中的一种,已经在自然语言理解和生成方面取得了显著的成就。然而,尽管如此,ChatGPT在自然语言处理中仍然存在着一些局限性和挑战。本文将