如何使您的机器学习模型保持最新
2255
高效的机器学习模型需要高质量的数据。训练您的机器学习模型并不是过程中的单个有限阶段。即使将其部署在生产环境中,也可能需要稳定的新培训数据流,以确保模型随时间的预测准确性。毕竟,训练数据会显式地调用数据集中代表 外部世界中不断变化的地面事实的属性。如果不进行定期重新训练,随着实际变量的发展,模型的准确性自然会随时间下降。在本文中,我们将讨论为什么不管您的初始训练数据过程多么严格,继续训练您的机器学习模型都是至关重要的。我们还将讨论再培训的方法以及每种方法的优点。
最后,我们将介绍如何在任何机器学习项目开始时预见对后续更新的需求。通过从一开始就建立再培训过程,您将设计一个可持续的预测模型。
数据漂移和再培训需求
为什么大多数机器学习模型都需要更新才能保持准确性?答案在于训练数据的性质以及它告知机器学习模型的预测功能的方式。
训练数据是一个静态数据集,机器学习模型可从该数据集中推断出模式和关系,并对未来进行预测。
随着现实条件的变化,训练数据的地面真实性表示可能会不太准确。想象一下用于预测50个大型都会区租金成本的机器学习模型。从2000年到2019年的培训数据可能会以惊人的准确性预测2020年的租金价格。预测2050年的租金价格可能不太有效,因为房地产市场的基本性质可能会在未来几十年发生变化。
应用自然语言处理(NLP)训练聊天机器人可提供数据漂移的另一个有用说明。我们使用语言的方式正在不断发展,因此必须更新对支持聊天机器人的训练数据的语义分析,以反映当前的语言。想象一下,尝试使用1980年代的培训数据来训练聊天机器人与现代消费者进行互动。在40年中,语言可能会发生巨大变化-迫使需要更新的培训数据。
已经以多种方式描述了这种现象,包括数据漂移,概念漂移和模型衰减。无论您说什么,它都代表了机器学习的硬道理:在将来的某个时候,您的训练数据将不再为准确预测提供基础。
不可避免的挑战的答案是定期使用新数据或扩展数据重新训练您的模型。确实,训练模型是一个持续的过程,尤其是在质量很重要的情况下。
您应该如何应对更新机器学习模型?简单来说,您有两个选择:使用更新的输入手动重新训练模型,或构建旨在从新数据中不断学习的模型。
手动模型重新训练方法
实质上,手动更新机器学习模型的方法是复制您的初始训练数据过程-但要使用一组更新的数据输入。在这种情况下,您可以决定如何以及何时提供算法新数据。
此选项的可行性取决于您定期获取和准备新训练数据的能力。您可以随时间监视模型的性能,确定何时需要更新。如果模型的准确性明显下降,则可能需要对更新的数据进行重新训练。
这种方法的优点之一是,修补通常可以带来见识和创新。如果密切监视模型并找出缺点,则可能会发现包含更多数据或以更基本的方式修改算法的价值。
模型训练的持续学习方法
持续学习模型通常会从部署了数据的生产环境中合并新的数据流。
消费者每天都会使用持续学习的机器学习模型。考虑音乐流媒体平台S,该平台使用协作过滤功能根据具有相似爱好的其他用户的偏好向用户提供推荐,以创造价值和竞争优势。
当S用户收听音乐时,与他们的选择有关的数据将反馈到公司的预测算法中。由此产生的反馈循环完善了该应用为其用户提供的建议,并允许高级个性化设置,例如机器生成的个性化播放列表。其他领先的消费媒体服务提供商也使用类似的持续学习系统。
如您所料,构建这些系统所需的技术专长和资源对于许多组织来说根本无法满足。此外,您需要稳定的数据流以进行自动集成。在持续学习模型中,人为干预是可能的,但它代表了真正的瓶颈。例如,S在将其数百万用户生成的数据反馈回其算法之前,不需要对其进行清理或格式化。
无论是手动更新还是持续学习似乎更有效且可行,您都需要从战略上考虑用于生成新数据以进行再培训的劳动力和技术。如果您打算在可预见的将来使用模型,则需要适当的资源来保持模型最新。
期待发展:选择团队
创建培训数据需要人员,流程和工具的战略组合。要浏览收集,清理和标记数据的歧义,您需要一个有效的技术人员堆栈,其中包括熟练的技术人员和先进的技术。
许多组织无法管理或扩展内部团队来准备培训数据,因此他们寻求利用人类智能的替代方法。众包劳工是一种常见选择,它使您可以在短时间内挖掘数百名匿名工人。
然而,匿名众包带来了隐性成本,包括与工人的沟通不畅,这可能导致工作质量低下。而且,如果在开发初始训练数据集时这些缺点很明显,那么当您尝试重新训练和更新模型时,它们将尤其令人沮丧。
对于一群匿名的众包工人,几乎不可能进行监督或转移机构记忆。每次开发新的培训数据时,都有发现新的不一致和性能问题的风险。
C提供了另一个选项:随时准备转变您的数据操作的托管团队。您可以聘请我们的专业技术人员来满足您的特定数据需求,并根据需要随时间扩大或缩小规模。您将获得具有众包劳动力的灵活性的真实团队的服务和沟通,从而在不牺牲效率的情况下降低成本。
如果要长期保持机器学习模型的性能,则需要足够灵活的员工队伍来满足您不断进行的培训数据需求。看一下我们可扩展的机器学习方法,看看我们如何帮助其他公司克服数据挑战,为创新产品提供动力并破坏其行业。
C是将人员和技术结合在一起以提供用于机器学习和核心业务数据处理的云劳动力解决方案的全球领导者。我们的管理团队拥有150多个AI项目的经验,几乎可以使用任何工具来高精度地处理数据。作为影响力采购服务提供商,C为发展中国家的人才创造了经济和领导机会。
以上就是关于如何使您的机器学习模型保持最新的全部内容介绍,想了解更多关于机器学习的信息,请继续关注。