顶级ML后端工程师“进化”指南

本文来源丨51CTO

在当今瞬息万变的技术世界中,机器学习(ML)后端工程师惊觉自身正处于进步的最前沿,被迫不断适应和加速创新。在竞争激烈的技术市场中,产品质量是成功的核心,寻找产品改进的新方法是ML后端工程师的责任。在本文中,我们将介绍帮助您成为优秀ML后端工程师的五种策略。

策略1:持续学习ML基础知识

在ML后端工程师能够创新复杂的应用程序之前,他们必须首先了解机器学习的基础知识。理论基础、经典算法和已确立的最佳实践不仅仅是学术练习;它们还是后续每一层知识和专业技能的基础。

案例研究:改进电子商务聚合器的查询分类算法

确定用户查询或搜索短语背后意图的过程称为查询分类(Query Classification)。这对电子商务聚合器来说至关重要,这些聚合器会将来自不同零售商的产品整合到一个平台上。例如,客户在销售书籍、电子产品和服装的电子商务聚合器中输入查询“Harry”,该聚合器可以指向“Harry Potter”(书籍或电影)和“Harry Styles商品”(服装)等结果。在这种情况下,精确的查询分类对于确保用户找到他们所需的产品至关重要,这可以带来更高的转化率和用户满意度。   

虽然基于规则的分类系统可能难以处理这样的查询,但经过大量数据训练的ML模型可以对用户正在寻找的内容做出有根据的猜测。如果您不了解基本的算法和方法,如基于规则的分类、决策树、朴素贝叶斯分类器(Nave Bayes Classifier)、神经网络和深度学习等,那么您成功的机会几乎是渺茫的。

掌握ML基础知识的关键要点和技巧

通过定期回顾和加强机器学习基础知识,您可以巩固自己的知识,更好地了解趋势,并在竞争中保持领先地位。以下是一些建议:

  • 把时间和资源投入到基础课程、讲习班和研讨会上。虽然“重返校园”似乎有些奇怪,但这些途径往往为旧概念提供了新的视角。
  • 参与实践项目和挑战,使您能够应用基本的机器学习概念。这不仅加强了理解,而且揭示了理论可能遗漏的细枝末节。

策略2:内部测试(Dogfooding)自己的产品

Dogfooding表面看是“吃自己的狗粮”,现在也被译为“内部测试”,指的是作为最终用户使用您自己的产品,以深入了解其优点、缺点和需要改进的地方。这个概念的基本思想简单而深刻:通过亲自体验自己的产品,您将能获得宝贵的见解,这些见解可以帮助您识别问题、痛点和创新机会,否则这些问题可能会被忽视。

案例研究:帮助一家土耳其搜索引擎提高搜索质量

例如,一家土耳其公司在决定从头开始构建一个新的搜索引擎时,尽管拥有一支称职的QA团队,并利用了BERT和Neural Networks等先进算法,但他们仍然很可能会面临搜索结果相关性和准确性方面的偏差。“内部测试策略”(Dogfooding Strategy)——所有公司员工开始专门使用自己的搜索引擎来满足在线搜索需求——可能会有所帮助。它将有助于定义和解决查询分类、词嵌入、UI实现和广告放置等方面的缺陷。“内部测试”方法将为技术团队提供必要的数据,以实现更适合土耳其语言和用户行为细微差别的算法。   

Dogfooding的最佳实践:

  • 定期使用:将您的产品集成到您的日常工作中,确保您在各种场景和上下文中使用它。
  • 多样化的团队参与:鼓励所有部门的成员使用产品,而不仅仅是工程师和产品经理。不同的视角可以突出不同的问题。
  • 反馈渠道:创建简单的内部反馈渠道。当一个想法或问题在脑海中迸发时,它是最强大的。
  • 快速迭代:当获得的见解触发及时响应时,Dogfooding效果最好。根据反馈确定优先级并采取行动以不断改进产品。

策略3:产品差距的定量分析

在产品开发过程中,如果没有定量分析,有时很难确定需要改进的特定领域。它使企业能够准确地识别差距,并通过可测量的数字数据剖析产品性能,将用户行为、反馈和产品指标转化为有形的数字,从而执行有针对性的改进。

案例研究:提高地图搜索服务的排名质量

以一个全球流行的地图搜索服务为例,它不断收到关于搜索结果排名质量的投诉,用户声称特定的地标应该得到更多的可见性。该公司可以通过定量分析来检查用户搜索模式、点击率、用户粘性持续时间和重新查询频率,从而获得有价值的数据。获悉这些数据可以帮助定义为什么著名的地标经常被忽视,并改进排名算法,以改进关键的“以用户为中心”的指标。   

快速分析产品质量并得出可操作性见解的技术:

  • A/B测试:将您的用户群分成两组,测试不同版本的产品。比较性能指标,看看哪个版本更受用户欢迎。
  • 热图:利用生成用户交互热图的工具。这张图描述了用户在哪些地方花费了大部分时间,哪些功能被忽略了。
  • 用户流分析:发现用户如何浏览您的产品。确定瓶颈或下降点,以帮助优先考虑需要改进的领域。
  • 带有定量问题的反馈调查:设计带有数字评级的调查,而不是开放式问题。这为分析提供了更精确的基线。
  • 实时监控工具:部署提供实时洞察用户行为的工具,使团队能够快速识别和解决任何意外问题或差距。

策略4:加快开发周期

ML模型开发周期是一个迭代过程,包括构思、训练、测试和部署。这个循环的每一个循环都旨在建立一个更精细、更准确、更有效的模型。在日益激烈的市场竞争中,缩短周期是绝对必要的,快速迭代也是必要的。

案例研究:减少自动驾驶汽车项目的模型推理时间

在自动驾驶汽车行业中,驾驶模型的推理时间至关重要,因为较长的推理时间可能导致道路上的反应延迟。通过整合一些真正有效的策略来简化开发周期,可以让自动驾驶汽车更快地实时反应,同时也允许团队更频繁地迭代和改进模型,从而进一步提高性能。

加快开发周期的策略包括:

  • 使用更小的模型/更小的池进行实验:在扩大规模以进行更快的实验和假设验证之前,先从更小、更易于管理的模型或数据子集开始。
  • 构建自动化培训和评估管道:自动化耗时的任务(如培训和评估管道)以释放工程师的时间进行改进和创新。
  • 在线测试之前利用Dogfooding和离线测试:在启动全面的在线测试之前,先在内部使用您的产品并运行离线测试来检测主要问题,以尽早解决潜在问题,从长远来看,这样做更加节省时间和资源。

策略5:构建示范性原型

示范性原型(Demonstrative Prototype)是一个非常有用的工具,可以增加创造成功最终产品的机会。它将抽象概念与具体的产品实现联系起来。

示范性原型在产品开发中所扮演的角色包括:

  • 可视化:原型将想法变为现实,让所有利益相关者(无论他们是开发者、投资者还是潜在客户)都能与之互动并更好地理解概念。
  • 收集反馈:用户可以测试原型,并为进一步的设计改进提供反馈,以确保最终产品与用户的需求和期望紧密匹配。   
  • 降低成本:与在全面生产后进行检测相比,在原型阶段识别设计缺陷或效率低下可以节省大量资源。
  • 获得利益相关者的支持:一个可行的原型可以向潜在的投资者或高层管理人员证明这个想法的可行性。
  • 改进用户体验(UX):与原型交互可以提供对用户旅程的见解,允许设计师改进用户体验,以获得更大的直观性和用户满意度。
  • 降低风险:通过在真实场景中测试原型,可以及早识别和解决潜在的风险或缺点。