在传统分析中,更多聚焦于描述——业务上发生了什么,发生的频率如何,严重程度如何,倾向于用历史数据来描述现状。而高级分析中,更多聚焦于分析——问题发生的原因,将来会发生什么,我可以做什么来优化问题,如果修改了这一项,会有什么影响。
毫无疑问,高级分析会帮助企业揭示未来并优化运营,用数据引领企业走向新的高度。
1、模型建立困难:传统技术方案中,多用表模型来描述业务,倾向于建立一个模型来描述现在和未来。但遗憾的是,难以通过一张表简单的将所有数据囊括在内,复杂的数仓模型需要精心设计,但变化却十分困难。
2、难以追根溯源:问题发生的原因错综复杂,表模型长于进行简单的业务处理,在进行复杂分析时,已经丢掉了业务中的重要关系,无论是描述业务还是追溯业务,都存在明显短板。
3、预测依赖于统计特征:传统技术方案中,预测更多依赖于统计数据,而忽略了事物之间的关系,这会使得预测成为统计特征的堆叠,或多种统计特征的简单组合。
4、what-if试验困难:需要进行业务优化时,多种方案的对比显得尤为重要,当业务模型复杂,调整其中一项对全局影响如何,传统的技术方案难以给出令人满意的回答。
在图中,可以通过点和边描述现实世界,模型可以灵活调整,且可以无限扩展,这使得我们可以用一个大图将所有数据包含在内,又无需担心模型的变化调整。
数据本来就是自然连接的,当建立一个图模型之后,可以很自然的通过图遍历追溯到所有相连的业务实体,而无需固定搜索范围。
当业务情况复杂时,可以补充图特征,将数据之间的关系及统计信息结合使用,更准确预测未来业务的发展变化。
在图中,无论业务涉及到的实体及连接如何错综复杂,都可以通过点边表示,当其中的一个点发生变化,可以快速计算其影响范围及影响程度,性能及易用性上远高于传统解决方案。
Anna Veronika Dorogus
Machine Learning Expert
Anna Veronika Dorogush graduated from Lomonosov Moscow State University and Yandex School of Data Analysis. She used to work at ABBYY, Yandex, Microsoft and Google on Machine Learning infrastructure and Machine Learning frameworks. In 2017 she published the open-source library CatBoost, which is now one of top-3 most popular Gradient Boosting libraries, and the top 7-th most used Machine Learning framework in the world according to Kaggle 2021 review.