机器学习可以预测生物回路的行为

杜克大学的生物医学工程师设计了一种机器学习方法来模拟工程菌中复杂变量之间的相互作用，否则这些复杂变量的预测会过于繁琐。他们的算法可以扩展到各种生物系统。

在这项新的研究中，研究人员训练了一个神经网络来预测嵌入细菌培养物中的生物电路产生的圆形图案。系统运行速度是现有计算模型的3万倍。

为了进一步提高准确率，研究团队设计了一种对机器学习模型进行多次再训练的方法来比较他们的答案。然后，他们用它来求解第二个生物系统，这是一种具有不同计算要求的方式，这表明该算法可以应对不同的挑战。

杜克大学生物医学工程教授凌崇友说，“这项工作的灵感来自谷歌，它表明神经网络可以在围棋中学习击败人类。”

“虽然游戏规则很简单，但计算机有太多的可能性来确定性地计算最佳的下一个选项，”你说。“我想知道这种方法是否有助于我们处理生物复杂性的某些方面。”

你和他的博士后同事王尚英面临的挑战是确定哪些参数可以在基因工程细菌培养中产生特定的模式。

在之前的研究中，你的实验室允许细菌产生蛋白质。根据培养生长的具体条件，这些蛋白质相互作用形成年轮。通过控制生长环境的大小和提供的营养量等变量，研究人员发现他们可以控制戒指的厚度、出现时间和其他特征。

通过改变几十个可能的变量，研究人员发现它们可以做更多的事情，比如导致两个甚至三个环的形成。然而，由于单个计算机模拟需要五分钟，因此在任何大的设计空间中搜索特定结果变得不切实际。

在他们的研究中，该系统由13个细菌变量组成，如生长率、扩散、蛋白质降解和细胞运动。一台计算机只需要600多年就可以计算出每个参数的6个值。在具有数百个节点的并行计算机集群上运行它可能会将运行时间缩短到几个月，但机器学习可以将其缩短到几个小时。

“我们使用的模型非常慢，因为它必须以足够低的速度及时考虑中间步骤，以确保准确性，”尤说。“但我们并不总是关心中间步骤。我们只是想要一些应用程序的最终结果。如果我们觉得最终结果有趣，我们可以找出中间步骤。”

为了直接跳到最终的结果，王求助于一种叫做Deep Neural Network的机器学习模型，它可以有效地比原始模型更快地做出数量级的预测。该网络将模型变量作为输入，最初分配随机权重和偏差，并预测将形成什么样的模式菌落，完全跳过导致最终模式的中间步骤。

尽管初始结果与正确答案相差甚远，但每次将新的训练数据输入网络时，都可以调整权重和偏差。如果有足够大的“训练”集，神经网络最终将学会几乎每次都做出准确的预测。

为了处理一些机器学习错误，尤和王想出了一个快速检查他们工作的方法。对于每个神经网络，学习过程都是随机的。换句话说，它永远不会以同样的方式学习两次，即使它是在同一组答案中训练的。

研究人员训练了四个独立的神经网络，并比较了每个例子的答案。他们发现，当经过训练的神经网络做出类似的预测时，这些预测接近正确答案。

“我们发现，我们不需要使用缓慢的标准计算模型来验证每一个答案，”尤说。“其实我们用的是群众的智慧。”

随着机器学习模型的训练和验证，研究人员开始利用它对自己的生物回路进行新的发现。最初用于训练神经网络的10万个数据模拟中，只有一个产生了带有三个环的菌落。然而，随着神经网络的速度，尤和不仅找到了更多的三胞胎，而且还确定了哪些变量对产生三胞胎非常重要。

“神经网络可以找到变量之间的模式和相互作用，否则就不可能找到它们，”王说。

作为研究的最后阶段，尤和王在一个随机操作的生物系统上尝试了他们的方法。为了解决这类系统，计算机模型需要多次重复相同的参数才能找到最可能的结果。尽管这与他们最初的模型是完全不同的原因，但研究人员发现他们的方法仍然有效，表明它可以扩展到许多不同的复杂生物系统。

研究人员现在正试图将他们的新方法应用于更复杂的生物系统。除了在具有更快gpu的计算机上运行之外，他们还试图使算法尽可能高效。

“我们用10万组数据训练了神经网络，但这可能有点太多了，”王说。“我们正在开发一种算法，在这种算法中，神经网络可以与模拟实时交互，以帮助加快速度。”

“我们的第一个目标是一个相对简单的系统，”尤说。“现在我们想改进这些神经网络系统，为更复杂的生物回路的潜在动力学提供一个窗口。”

标签：

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。