让我们直截了当地说:数据科学家的作用不会很快消失。相反,这一职位将继续发展,特别是随着新的生成人工智能工具的出现。
微软高级数据和应用科学家Siddhartha Sharan在最近的一个播客中表示:“这些工具(LLM)是有益的,因为它们可以提高效率,并有助于在陷入困境时解决问题。然而,那些声称这些工具将取代数据科学家或数据工程工作的人并没有充分考虑到这种说法的影响。”
人工智能专家Vin Vashishta支持这一观点,他说:“生成式人工智能工具的工作效果足以增强人们的能力,但经过一年的工作,我还没有看到任何可以替代人们的东西。大多数工具仍处于概念验证阶段,在我们谈论人工智能取代人们的工作之前,还有一些缺陷需要解决”。
用Generative AI提升数据科学家
早些时候,数据科学家花了数小时在数据清理和格式化等乏味的任务上。生成型人工智能可以使这些平凡的活动自动化,为数据科学家腾出时间来处理更复杂的问题。
Vashishta说:“我们花了很多时间解释相同的事情或回答相同的问题。随着业务的扩展,工作也在扩展,而这些重复的任务大大增加了工作量。小型生成式 AI 模型非常简单地就能自动化这些用例。外包简单的任务可以释放人们的时间去处理更复杂的工作。”
有了生成式人工智能,数据科学家现在可以使用算法生成模拟真实世界场景的合成数据。这加快了数据准备阶段,使专业人员能够更加专注于结果的分析和解释。
此外,生成式人工智能可以使数据科学家能够以创新的方式探索数据。GoodGist的联合创始人兼首席执行官Ruban Phukan表示:“数据科学家正在演变为‘解决方案科学家’,使用GenAI工具集设计创造性的解决方案,或业务自动化架构师,利用人工智能为业务功能构建自动化解决方案。”
然而,即使有了这些进步,生成式人工智能也无法取代数据科学家的独特技能和解决问题的方法。生成式人工智能在理解特定的商业挑战、考虑人类方面或独立获取必要的领域知识方面存在不足。
例如,在谈到情绪分析时,Sharan说:“现在很难说是否会完全没有人参与,因为我们的方法是前三次通过人工智能完成,然后有人参与验证结果。”
对于有抱负的数据科学家
根据Sharan的说法,对于下一代的数据科学家来说,重要的是,它们要跟上生成式人工智能的用例。Sharan说:“数据科学家应该阅读并理解各种模型,了解它们的优缺点。你的项目经理或工程师不希望你引用解决方案。相反,他们会寻求指导,说明针对特定问题考虑哪种模型,部署哪种模型以及哪种模型从长远来看更有效。”
此外,他认为数据科学家有必要了解使用各种语言模型的成本。他说,例如,将所有数据放在GPT-4中进行汇总可能成本高昂,而且不一定有意义。
他说:“你如何有效地降低成本,同时保持产品足够大的利润率?这是一个关键问题,也是数据科学家可以提供很大帮助的地方。这是数据科学家需要学习的。”
事实上,如果审查申请数据科学家职位的标准,就会发现大多数公司都更新了要求。例如,惠普数据科学家的工作描述要求,“作为一名专注于生成人工智能的数据科学家,你将在惠普从事多项工作,涉及大型语言模型和其他新的生成人工智能功能。”
同样,IBM的工作描述称,“了解人工智能、基础模型和大型语言模型的最新趋势和进步。评估新兴技术、工具和框架,以评估其对解决方案设计和实施的潜在影响。”
最近,IBM与Coursera合作推出了一门题为“数据科学家专业化的生成式人工智能”的课程让专业人士提升自己的技能。