现如今,企业的各个业务系统中积累了大量的数据,BI可以帮助企业缩短内部决策时间,提升决策效率。对于企业而言,如何更好的组织数据、挖掘数据、进行业务理解、问题发现、问题诊断、决策支持以及开放性预测,成为了提升企业竞争力的关键。
传统BI需要大量的IT人员投入建立模型,自助式BI虽然将前端的报表制作及部分探索交给了业务人员,但底层模型不灵活的问题依然存在,业务人员的数据分析掣肘于数据模型,无法灵活进行探索分析。
当数据量巨大,且类型复杂的时候,单纯的统计分析已经没办法满足我们的需求了。这时候,如果尝试从数据关系的角度去做探索,找到事物之间隐藏的联系,将会从数据中发掘出新的价值。
图天然具有可解释性,图是一个高度抽象的模型,数据中的各种关系都能用图表示。图中的点和边,可以非常灵活,不局限于现实意义的实体。比如常用的白板,上面画的各种点边,就是一个简单的图。所以业务与技术人员,甚至采购与市场人员,都可以就一张图理解互相之间是如何关联的。而业务人员,也可以参与到图模型的建立中。
图中的模型修改也十分简单,当需要加入更多的数据,只需增加新的节点,和原有节点连接即可,无需修改原有数据。当业务产生变化时,直接修改模型即可。
图中的查询,可以从任意一点开始,跳转到其他相连的节点,并在过程中同步进行计算。当需要转换业务视角,只需要从不同类型的图节点出发进行跳转即可。
当数据量巨大,且种类众多时,人脑难以发现潜藏的多度联系。关系型数据库中,需要指定关联路径。而在图中,可以不指定路径,给定两个点,返回他们是否关联及关联路径的结果,这为发现业务盲点及新的业务机会提供了极大帮助。
当情况复杂时,往往难以简单描述并进行搜索,而在图中,可以通过统计+关系的方式识别更复杂的模式,并进行搜索,这会让我们将看待业务的视角从单一维度的统计转换为数据之间的关系+统计。
在基于表结构的统计分析中,往往需要指定维度进行统计分析,而在图中,可以将所有相连的实体纳入到分析中,从关系的角度进行更多维度的探索及统计。
Anna Veronika Dorogus
Machine Learning Expert
Anna Veronika Dorogush graduated from Lomonosov Moscow State University and Yandex School of Data Analysis. She used to work at ABBYY, Yandex, Microsoft and Google on Machine Learning infrastructure and Machine Learning frameworks. In 2017 she published the open-source library CatBoost, which is now one of top-3 most popular Gradient Boosting libraries, and the top 7-th most used Machine Learning framework in the world according to Kaggle 2021 review.