基于图技术提升多模型协作性能-AI人工智能–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

基于图技术提升多模型协作性能

来源:CTO 日期:2024/4/11 8:00:00 阅读量:(0)

译者 | 朱先忠

审校 | 重楼

当今时代，各种人工智能模型的能力整合到一起已经释放出一股巨大的潜力。这种力量已经涉及到从需要视觉、语音、写作和合成等多种能力的复杂任务自动化到增强决策过程等诸多领域。然而，如何高效协调这些合作？无论在管理内部关系还是在管理依赖性方面都提出了重大挑战。传统的线性管理方案往往达不到要求，难以管理各种模型和动态依赖关系的复杂性。

通过将机器学习工作流程转换为图形式，我们可以更为直观地了解每个模型间的相互作用，并为把自然语言处理、计算机视觉和语音模型共同整合到一起的整体效果发挥作用。在使用图方法的过程中，节点表示模型或任务，边定义它们之间的依赖关系。这种基于图的映射提供了几个优势，可以识别哪些模型依赖于其他模型的输出，并利用并行处理来完成独立任务。此外，我们可以根据任务优先级使用现有的图导航策略（如广度优先或深度优先）来执行任务。

然而，通往和谐的人工智能模型协作之路并非没有障碍。想象一下，指挥一个管弦乐队，每个人都会说不同的语言，乐器独立演奏，等等。这一挑战反映了集成不同人工智能模型时的沟通差距；因此，急需一个框架来管理关系以及确定哪些模型可以接收每种输入格式。

多模型协作典型使用场景

基于图论技术的多模型编排方法为各个领域的激动人心的可能性应用敞开了无数的大门：

药物发现领域的协作任务

作为数据分析任务中部分任务的三模型协作图

研究人员可以使用一系列人工智能助理来加速药物发现过程。例如，使用三步法发现任务，每个AI助理都是为特定任务设计的。第一步涉及一个语言模型，该模型负责扫描大量科学数据，以突出与特定疾病密切相关的潜在蛋白质靶点。然后是一个视觉模型，以解释复杂的图表或图像，提供对已识别蛋白质结构的详细观察。这一视觉效果对于理解潜在药物如何与蛋白质相互作用至关重要。最后，第三个模型整合了语言和视觉模型的输入，以预测化合物可能如何影响靶蛋白，为研究人员有效把控这一过程提供宝贵洞察力。

不过，在交付整个管道的模型集成过程中，也将出现一些挑战。从扫描内容中提取相关图像并将该图像输入到视觉模型中并不像看上去那么简单。例如，在文本扫描和视觉任务之间需要使用一个中间处理器来过滤相关图像。其次，分析任务本身往往需要合并多个输入：数据扫描输出、视觉模型的解释和用户指定的指令。这需要通过一个模板来组合语言模型的这些信息，以便处理所有相关信息。接下来后面的内容中，我们将介绍如何利用一个开源Python框架Intelli来处理这些复杂的关系。

创造性的内容生成

用于生成动画的四个任务之间的关系示意图

模型协作可以通过集成音乐创作、动画和设计模型等元素来生成动画场景，从而促进交互式内容创建。例如，在基于图的协作方法中，第一个任务可以像导演一样规划场景，并传递每个音乐和图像生成任务的输入。最后，动画模型将使用艺术和音乐模型的输出来生成短视频。

为了优化这一过程，我们的目标是实现音乐和图形生成的并行执行，因为它们是独立的任务。因此，音乐不需要等待图形的完成。此外，我们需要通过动画任务处理不同的输入格式。虽然像Stable Video Diffusion这样的一些模型只能处理图像，但音乐数据可以使用一种后处理器组合到一起。

其实，上面这些例子只是展示了模型集成过程中运用图技术潜力的小小的一瞥。总之，图集成方法允许您根据特定需求定制多个任务，并提出一些创新性解决方案。

通过开源Intelli框架并运用图技术编排人工智能模型

用图表示的任务

Intelli是一个开源Python模块，它通过三个关键组件并利用图形学原理来编排人工智能工作流程：

代理（Agents）：代表人工智能模型，开发者可以通过指定其类型（文本、图像、视觉或语音）、提供商（如OpenAI、Gemini、Agents、Mistral等）和任务共三部分信息来定义每个代理。
任务（Tasks）：是人工智能工作流程中的单个单元。每个任务都利用代理来执行特定操作，并使用用户提供的自定义预处理和后处理方案。
流（Flow）：负责将所有内容绑定在一起，协调任务的执行，遵守通过图结构建立的依赖关系。流管理确保任务以正确的顺序高效执行，尽可能实现顺序和并行处理。