显微镜和显微技术

同步加速器和中子大数据公平的方式

2023年3月17日

作者:Kat Roarty代表钻石光源有限公司

免费阅读

产品都是免费下载。解锁条显示更多内容,图形和图像。

同步加速器研究机构,欢迎来自世界各地的科学家回答科学问题在所有的科学领域,从生命科学文化遗产。betway88体育官网他们的实验越来越每年产生大量的数据同步加速器总是进步和开发新技术来解决各种各样的科学挑战。更快的探测器允许in-operando分析,机器人处理更多的样本和增加beamline的能力。这些改进导致产生的数据量大幅提升;因此数据分析成为同步加速器的最大挑战之一和中子设施。

pb的数据是由光子和中子(PaN)设施每年,所以需要协作和协调的方式是大多数科学家所面临的问题。betway88体育官网单一断层扫描实验产生几tb的数据在几个小时,所有需要彻底带注释的分析团队的研究人员。但是如果再分析的数据可以通过不同的团队,从而最大化其价值?这是其中的一个主要目标的扩展(欧洲科学开放的云(EOSC)光子和中子数据服务)欧洲项目,10个国家光子和中子研究合作基础设施(PaN RIs)来自欧洲。扩大合作伙伴共享一个多样化的用户社区的至少25000名研究人员。用户进行实验涉及成像功能和其他创新技术以及一个巨大的多样性数据管理技术。潘设施是臭名昭著的生成大量的数据和大量的数据文件要统一一个挑战。雄心勃勃的扩张计划一直在与用户查看数据的价值是如何增加了更高效的管理支持共享和重用,提倡更好的管理。
潘设施前进,准备机器升级,让科学的新的可能性。例如,在钻石光源,其计划升级到Diamond-II不仅会增加亮度和相干了70倍,而且提高光束质量和稳定性通过新的x射线光学仪器,先进的样品交付,通过优化样品的开发和操作环境。因此,许多实验的巨大的吞吐量的增长将需要一个转换钻石聚集的能力,管理和分析的庞大的数据量和数据速率生成。

接近统一的数据

扩展项目,连同它的姊妹项目PaNOSC (panosc.eu),涉及欧盟RIs,使所有的锅设施如何管理他们的数据评估和理解同步用户期望有关的数据。约定的目标之一就是公平的概念数据即满足以下原则:数据必须是可发现的,访问,可互操作、可重用(公平)。
(重新)使用数据的第一步是能够找到他们。元数据和数据应该很容易找到人类和电脑。机器可读的数据集的自动发现和服务元数据是必不可少的,这是一个重要组成部分“FAIRification”过程。一旦用户找到所需的数据,他们需要知道他们如何可以访问,可能包括身份验证和授权。数据通常需要与其他数据集成。此外,需要与应用程序或工作流互操作的数据进行分析、存储和处理。公平的终极目标是优化数据的重用。为了达到这个目标,应该很好的描述元数据和数据,这样他们就可以被复制和/或组合在不同的设置。

扩大提供指导

锅设施运行在许多不同的技术,这是一个真正的挑战,统一格式的数据和所有相关的元数据。扩大帮助这部分通过开发指导方针和建议提供一个工具箱,设备可以使用,以确保数据生成的实验是公平的,因此适合共享和重用,以及实验者更容易使用。
首先,组织环境被认为是在指导数据支持数据共享政策,承诺支持公平的出版数据,进行科学的同时保护用户的优先级。第二个建议讨论建立一个公平的实验过程,包括设施的协调工具和信息系统支持丰富的元数据对数据的收集,所以研究人员可以发现和理解数据足以允许重用。第三个建议讨论持久标识符(pid)等独特的标签资源数据,论文,甚至人,使他们能够明确地发现和使用,同时允许信贷给实验团队。数据管理计划(纯数字)讨论了第四个建议,将“FAIR-ness”到一个特定的实验中,指定额外的元数据描述实例。纯是耗时为用户生产,指导认为如何负担可以显著减少纯数字集成到实验过程。
进行了协商,达到超过14000研究人员呼吁他们需要更好的数据管理。咨询,收到来自不到200名受访者的反馈,显示:
•82%的受访者宣称至少他们的一些数据开放和71%宣布至少他们的一些数据公平;
•几乎70%的受访者宣称“记录数据集(辅助和主要),这样的结果可以被复制和理解”是一个挑战,让他们公平和公开的数据;
•几乎50%的受访者宣称“数据太大分享”是一个挑战,让他们公平和公开的数据。
利用公平原则(特别是“脱颖而出”的)可以受到缺乏一致性和搜索数据库元数据用于注释数据记录。另一个项目的关键部分是几个小本体的发展促进一致的语义条件锅域中所有聚集在我们的伞PaNET,光子和中子实验技术本体论。这个简单的本体提供一个锅技术的分类,与新技术被定义为多个子类,类更基本,技术。
传播领袖扩大格兰特,伊莎贝尔Boscaro-Clarke从钻石的评论;“扩展的正在进行的工作是非常重要的我们的社区。研究深入用户需要什么,并奠定了基础数据目录连接EOSC平台,使他们能够以统一的方式进行共享。格兰特扩张使得进展更有效的共享和管理数据的方法,这将使它更容易找到并分享研究,有助于防止重复实验和推动科学进步。这个项目也提倡国家设施提供标准化的重要性,可互操作的,光子集成的数据源和数据分析服务和中子设施”。

处理复杂的数据挖掘集

扩展的机会从一开始就遵循用户的实验分析获得的数据在不同的设施。的一个案例研究断层扫描/成像特性罗伯托·Volpe博士和他的团队在伦敦大学玛丽皇后和伦敦大学学院。他们第一次成像通过前所未有的operando生物炭的孔隙度实验以钻石。Volpe博士的工作来克服现有知识缺口的生物质热化学分解,将使生产定制bio-chars高优先级环境应用。在扩展的支持——钻石Volpe博士曾与理解分析所面临的障碍的用户喜欢他。
Volpe博士说,帮助他获得分析的数据扩展和钻石的团队把他的研究。评论他说,这些巨大的数据集的数据挖掘是一个新的学科,需要广泛合作。分享这样的大型和复杂的集信息的挑战,扩大资助帮助寻求更好的方法来实现数据管理是真正有用的加速的结果和透明度。”
谜底的董事会主席最大的锅设施和主要合作伙伴扩大格兰特-赫尔穆特•道奇博士教授总结说:“现在,我们可以创建解决方案,在未来,更是如此——原子原子,你知道材料可以用于应对气候变化和疾病。但这数据,这信息是一个巨大的雪崩的数据给我们,我们需要概念如何将这些数据中有用的信息和知识。它需要正确的人;它需要正确的基础设施,需要大量的金融资源。但是现在我只能说,知识是昂贵的,但是无知我们负担不起。”
从欧盟扩大这个项目获得资助的地平线2020研究和创新项目赠款协议没有857641
进一步的信息可以从Kat Roarty,钻石影响经理扩展邮件和沟通协调员:k.roarty@diamond.ac.uk
在线的更多信息:https://www.diamond.ac.uk

免费阅读

产品都是免费下载。阅读本文请登录或创建一个帐户。