DS分析师应该如何分配他们的时间?

发布于 2022-06-04 00:15


如何多做重要的工作,少做不重要的工作

当我在谷歌开始构建机器学习模型时,我看到的第一件事就是下图。它强调了编写实际的机器学习代码只是我要做的全部工作的一小部分。事实证明这是真的。

资料来源:机器学习系统中隐藏的技术债务

但是在数据中工作不仅仅是机器学习,那么这张图表对于数据分析师来说是什么样的呢?

答案并不简单。有时,专注于构建仪表板和底层数据模型是有意义的,而在其他时候,专注于分析和洞察力更有意义。

考虑到这一点,这是我对分析师生活中平均一周的评估。

就像机器学习一样,有许多不同的任务与分析一样有价值。

然而,一个常见的话题是数据人员将 50% 以上的时间用于被动工作,经常处理数据问题或尝试查找或访问数据。这方面的例子是:

利益相关者提到仪表板中的 KPI 看起来与上周不同,您必须回答为什么会这样

dbt 中的数据测试失败,您必须了解问题的根本原因

您想为新客户群使用数据点,在 Looker 中搜索时有五种不同的定义,不清楚使用哪一种

时间分配不同

这是数据分析师如何花费时间的另一种选择


那么,有什么不同呢?

更多时间进行分析

分析师应该做……等待它……分析。他们应该有自由在上班途中获得想法并在午餐时间得到答复。这种类型的工作通常需要很长一段时间的专注时间,拥有合适的工具,并接受可以花半天时间做可能一事无成的工作是可以的。

当数据分析师与其他人密切合作时,我已经看到这一点做得特别好,例如用户研究快速制定假设以运行 A/B 测试,并且知道并非所有测试都将是本垒打。

“花额外的时间来确保你做的是正确的工作,而不是做正确的工作,通常是最好的时间”

处理数据问题的时间更少

与我交谈过的数据团队每天花费超过 20% 的时间来处理数据问题,并且随着规模的扩大,它会变得更加痛苦。当您是一个小型数据团队时,您可以查看一些数据模型来找出根本原因。随着您的扩展,您开始有数十个其他数据人员依赖您的数据模型,工程系统在没有通知您的情况下发生故障,以及您不知道影响数据模型的代码更改。

减少查找要使用的数据的时间

随着数据团队规模的扩大,寻找合适数据的难度也呈指数增长。当你是一个小团队时,你知道一切都在哪里。随着规模的扩大,它变得越来越困难,并且您经常遇到围绕同一指标的多个定义的问题。当你变得非常大时,在更糟糕的情况下,访问正确的数据可能需要几个月的时间。

寻找最佳时间分配

每个人的最佳分配都不一样,但我猜你会有改进的空间。最重要的第一步是仔细考虑如何度过你的时间。

“我建议每周留出几分钟时间回顾过去一周,记下你是如何度过时间的。如果你经常这样做,你会非常清楚你是否把时间花在了正确的位置上”

寻找正确的数据

数据目录在理论上很棒,但它们往往无法发挥其潜力。相反,它们最终成为事后的想法,并且与破窗理论不太相似的事情开始发生。一旦人们停止维护数据目录中的一些数据点,您不妨将整个事情扔出窗外。幸运的是,事情正朝着正确的方向发展,许多人正在考虑如何让定义和元数据更接近人们每天使用的工具。

减少处理数据问题所花费的时间

在过去的几年里,数据团队变得越来越大,并且正在创建更多的数据。当您是一个每天站立的五人数据团队时,处理数据问题很容易。当有几十个数据的人左右创建不同的数据时,这并不是那么简单。

作者图片

当您是一个较小的数据团队时,我们需要能够将一些让生活变得轻松的东西应用到较大的数据团队中。关于如何做到这一点的一些想法:

每个数据资产都应该有一个所有者

将数据资产封装到具有公共和私有访问端点的域中,因此并非所有人都可以访问所有数据

关闭与共享所有权的数据生产者的循环,以便尽可能在上游发现问题

让每个人都能调试数据问题,这样他们就不必每次都升级为相同的几个“数据英雄”

“与其将每个数据问题都视为临时火灾,不如投资于基础数据质量和控制,以降低数据问题再次发生的可能性”

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材