NASA与IBM联合研发INDUS模型以推动高级科学研究

4分钟阅读 以南方天空星座命名的INDUS(全部大写)是一个全面的大型语言模型套件,支持五个科学领域。美国国家航空...

4分钟阅读

以南方天空星座命名的INDUS(全部大写)是一个全面的大型语言模型套件,支持五个科学领域。美国国家航空航天局

德里克·科尔著

通过《太空法案协议》与私人、非联邦伙伴合作是NASA机构间实施和先进概念团队(IMPACT)工作的关键组成部分。与国际商业机器公司(IBM)的合作生产了INDUS,这是一套全面的大型语言模型(llm),为地球科学、生物和物理科学、太阳物理学、行星科学和天体物理学领域量身定制,并使用从不同数据源提取的精心策划的科学语料库进行训练。

INDUS包含两类模型;编码器和句子转换器。编码器将自然语言文本转换为可由LLM处理的数字编码。INDUS编码器是在包含天体物理学、行星科学、地球科学、太阳物理学、生物和物理科学数据的600亿个标记的语料库上训练的。它的自定义标记器由IMPACT-IBM协作团队开发,通过识别生物标记和磷酸化等科学术语,改进了通用标记器。INDUS所载的5万字词汇中有一半以上是用于培训的特定科学领域所独有的。使用INDUS编码器模型对大约2.68亿个文本对(包括标题/摘要和问题/答案)进行句子转换模型微调。

通过向INDUS提供特定于领域的词汇表,IMPACT-IBM团队在生物医学任务基准、科学问答基准和地球科学实体识别测试上取得了比开放的、非特定于领域的法学硕士更好的性能。通过设计不同的语言任务和检索增强生成,INDUS能够处理研究人员的问题,检索相关文档,并生成问题的答案。对于延迟敏感的应用程序,该团队开发了编码器和句子转换器模型的更小、更快的版本。

验证测试表明,在回应nasa策划的大约400个问题的测试集时,INDUS在从科学语料库中检索相关段落方面表现出色。IBM研究员Bishwaranjan Bhattacharjee评论了整个方法:“我们不仅拥有自定义词汇表,还拥有用于训练编码器模型的大型专业语料库和良好的训练策略,从而实现了卓越的性能。对于更小、更快的版本,我们使用神经架构搜索来获得模型架构,并使用知识蒸馏来训练它,同时监督更大的模型。”

2024年5月22日星期三,在华盛顿的美国宇航局总部玛丽·w·杰克逊大楼,美国宇航局首席科学家凯特·卡尔文在NASA员工市政厅就该机构如何使用和开发人工智能(AI)工具来推进任务和研究发表讲话。INDUS的模型套件将有助于促进该机构的人工智能目标。美国国家航空航天局/比尔英格尔斯

INDUS还使用NASA生物和物理科学部(BPS)的数据进行了评估。NASA BPS开放科学项目经理Sylvain Costes博士讨论了将INDUS与开放科学数据存储库(OSDR)应用程序编程接口(API)集成的好处:“将INDUS与开放科学数据存储库(OSDR)应用程序编程接口(API)集成,使我们能够开发和试用一个聊天机器人,为导航单个数据集提供更直观的搜索功能。我们目前正在探索如何利用INDUS来改进OSDR的内部策展数据系统,以提高我们的策展团队的生产力,减少每天所需的人工工作量。”

在NASA戈达德地球科学数据和信息服务中心(GES-DISC), INDUS模型使用来自领域专家的标记数据进行了微调,以将引用GES-DISC数据的出版物分类为应用研究领域。根据NASA首席数据科学家Armin Mehrabian博士的说法,这种微调“极大地提高了参考gs - disc数据集的出版物的识别和检索,旨在改善用户查找所需数据集的过程。”此外,INDUS编码器模型被集成到GES-DISC知识图中,支持各种其他项目,包括数据集推荐系统和GES-DISC GraphRAG。

美国宇航局科学发现引擎(SDE)团队负责人Kaylin Bugbee谈到了INDUS为现有应用程序提供的好处:“大型语言模型正在迅速改变搜索体验。科学发现引擎是NASA所有开放科学数据和信息的一个统一的、有洞察力的搜索界面,已经将INDUS集成到它的搜索引擎中。初步结果表明,INDUS提高了返回结果的准确性和相关性。”

INDUS通过为研究人员提供获得大量专业知识的更好途径,加强了科学研究。INDUS可以理解复杂的科学概念,并根据现有数据揭示新的研究方向。它还使研究人员能够从广泛的来源中提取相关信息,从而提高效率。与NASA和IBM对开放和透明的人工智能的承诺一致,INDUS模型在hug Face上公开可用。为了科学界的利益,该团队已经发布了开发的模型,并将发布基准数据集,涵盖气候变化的命名实体识别、地球科学的提取QA和多领域的信息检索。INDUS编码器模型适用于科学领域的应用,而INDUS检索器模型支持RAG应用中的信息检索。

一篇关于INDUS的论文《INDUS:科学应用的有效和高效的语言模型》可以在arxiv.org上找到。

本文来自作者[笃俊鑫]投稿,不代表星火科创立场,如若转载,请注明出处:https://wak.kjcg.org.cn/wiki/202505-1119.html

(10)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 笃俊鑫
    笃俊鑫 2025年05月18日

    我是星火科创的签约作者“笃俊鑫”!

  • 笃俊鑫
    笃俊鑫 2025年05月18日

    希望本篇文章《NASA与IBM联合研发INDUS模型以推动高级科学研究》能对你有所帮助!

  • 笃俊鑫
    笃俊鑫 2025年05月18日

    本站[星火科创]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 笃俊鑫
    笃俊鑫 2025年05月18日

    本文概览:4分钟阅读 以南方天空星座命名的INDUS(全部大写)是一个全面的大型语言模型套件,支持五个科学领域。美国国家航空...

    联系我们

    邮件:星火科创@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们