作者 | 核子可乐、凌敏
GPT-4 真的可以取代数据分析师吗?
今年 3 月 14 日,OpenAI 发布了新“核弹”——GPT-4。OpenAI 联合创始人 Sam Altman 表示,GPT-4 是“迄今为止功能最强大的语言模型”。与上一代相比,GPT-4 更强大更可靠,且更有创造性。
GPT-4 的发布让更多的人意识到,在聊天之外,人工智能的能力已不断扩展,并引发了部分人群对职业危机的担忧。有开发者担心,在未来的几十年内,AI 会循序渐进地取代一些开发岗位。
不过,GPT-4 的“野心”似乎不止于此,“取代程序员”浪潮未过,新一轮“取代潮”已经掀起。这一次,GPT-4 瞄准了年薪 60 万的数据分析师。
近日,阿里达摩院与新加坡南洋理工大学发布了一个关于用 GPT-4 取代数据分析师的成本核算的研究论文。论文指出,随着 LLM 的兴起和流行,不仅在 NLP 社区,其他诸多领域的人们都在考虑、或者担心自己的岗位可能被 AI 所取代。其中数据分析师成为 AI 时代下“首当其冲”的取代对象。
论文认为,数据分析师的主要工作内容就是从业务数据中识别出有意义的模式和趋势,并为利益相关者提供有价值的见解、协助制定战略决策。为了实现这个目标,数据分析师必须具备多种技能,包括 SQL 查询编写、数据清洗和转换、可视化生成和数据分析。由于工作流程相对较为固化确定,因此公众对于 AI 是否将取代数据分析师展开了激烈讨论。
论文指出:“除了所有数据分析师和 GPT-4 之间的可比绩效外,我们可以注意到 GPT-4 所花费的时间要比人类数据分析师短得多。我们假设每个月有大约 21 个工作日,每天工作 8 小时左右,并根据每个级别的数据分析师所花费的平均时间计算出每个实例在美元方面的成本。GPT-4 的成本约为初级数据分析师成本的 0.71%和高级数据分析师成本的 0.45%。”
在脉脉上,不少数据分析师岗位给到了月薪 40k 以上,以高级数据分析师年薪 60 万元为例,GPT-4 的成本大概在 2700 元左右。
图源:脉脉
论文地址:
https://arxiv.org/abs/2305.15038
作为数据分析师,GPT-4 大概是什么水平?在论文中,研究人员试图分析:作为数据分析师,GPT-4 大概是个什么水平?
首先,研究人员将数据分析师的主要工作内容分成三个步骤:
数据收集:主要包括理解业务需求,并决定哪些数据源与需求有所关联。确定了相关数据后,分析师就可以通过 SQL 查询或其他工具提取所需的数据。数据可视化:创建视觉辅助工具,例如图形和图表,借此高效传达见解。数据分析:在数据分析阶段,分析师可能需要确定不同数据点之间的关联性,识别异常和异常值,并跟踪随时间而变化的趋势。在此过程中得出的见解,可以通过书面报告或演示文稿的形式传达给利益相关者。根据数据分析师的主要工作范围,研究人员专门设计了一个 GPT-4 数据分析师模拟流程。如下图所示,其中,业务问题和数据库等强制输入信息显示在右上角的蓝色框内,参考的外部知识源作为可选输入则位于左上角的红色虚线框内。下方绿色框中的是提取数据(data.txt)、数据可视化(figure.pdf)和分析等输出结果。
图2
为了判断 GPT-4 作为数据分析师的水平如何,研究人员选取了 200 个样本,并对 GPT-4 的输出进行了系统且专业的人工评估,整个评估共分为两组。研究人员主要通过以下指标,对 LLM 的数据分析能力做定量评估:性能、时间和成本。具体来说,研究人员让 GPT-4 作为数据分析师解决几个端到端数据分析问题。由于此类数据分析问题没有可供参考的现成数据集,所以研究人员选择了相关度最高的数据集 NvBench,并在其中添加了数据分析部分。研究人员还设计了几项自动和人工评估指标,用以综合评估提取的数据、绘制的图表和生成的数据分析结论的实际质量。
图5
图 5 为不同受试方之间的成本比较。研究人员从 level.fyi 提取了新加坡数据分析师的年薪中位数,从 Glassdoor 查到了新加坡数据分析师的平均年薪。假定每个月约有 21 个工作日,每天工作 8 个小时左右,并按不同级别的数据分析师平均花费的时间来计算各个实例的具体成本(以美元计价)。最终结果是:在根据市场价格为各位数据分析师计费时,GPT-4 的成本约是初级数据分析师的 0.71%,是高级数据分析师的 0.45%。
GPT-4 这样的大语言模型真能取代人类数据分析师吗?在论文的结尾,研究人员并未给出明确结论。虽然从分析结果来看,GPT-4 的实际表现几乎与人类相当,并且所需的成本更低,但能否全面取代人类数据分析师仍需要进一步研究。
本文转载来源:
相关文章
猜你喜欢