Machine Learning / 可解释机器学习
使用TigerGraph图数据库加速机器学习
Gartner预计2021年AI的业务价值
75%的企业将在未来三年内“积极实施”人工智能
IDC预测2021年AI和ML的支出将增长到$ 57.6B
机器学习具有改变业务的潜力
传统机器学习方法有哪些不足?
传统机器学习使用分析和统计技术来发现数据中的模式,并为企业提供更深刻的洞见。然而,结果受到两个因素的限制:数据的质量如何以及分析的质量如何?
你无法从数据中发现并不存在或者非常弱的模式。为了获得成功,你的数据需要包含数百万条记录,以涵盖各种情况,并希望从多个数据源中获取数据。在我们日益数字化的世界中,收集原始数据已不再是问题。但仍然存在以下挑战:
- 特征选择:我获得的是正确的数据吗?
- 数据集成:如何才能将来自多个数据源的数据整合到一个统一的数据模型中?
- 分析性能:当拥有如此多的数据时,我是否仍可负担得起计算工作?
正是因为传统的机器学习方法缺少与结果高度相关的特征,同时训练的数据集又不够丰富,才会导致机器学习解决方案的准确性比较差,而最终失败。
使用TigerGraph原生并行图数据库来助力人工智能和可解释机器学习
. 为可解释机器学习实时提取图特征
针对许多类似上述的机器学习中遇到的数据挑战,图数据库提供了很好的解决方案。图背后的思维是通过边连接和遍历数据,将图用于机器学习的数据集成既自然又高效。图还可以丰富原始数据。 在传统的表数据中,每一列都是机器学习系统可以使用的一个”特征”。在图中,还可以使用每种连接类型以添加新的特征。此外,对于小图上的模式(例如因果链、环路和分叉等)本身也可以视为特征。
TigerGraph的深度链接分析意味着它可以处理TB级数据集,并在不到一秒钟的时间内遍历数百万条边,从而计算出基于图的新特征。 每年骗子通过诈骗手段可以骗走数十亿美元的钱。对欺诈检测和欺诈预防系统的效果评测,并不是看它能否捕获欺诈,而是捕获了多少。中国移动正在使用TigerGraph来实时地检查它每天多达数亿通的通话,以查看每一通电话是否有可能来自于垃圾电话或者诈骗电话。中国移动为其上亿部租户电话中的每一部收集了超过118个图特征,以供机器学习欺诈检测引擎使用,建立检测模型,然后同样地针对每一次电话呼叫实时地提取118个图特征。这将生成具有数十亿个新特征的训练数据集,从而提高欺诈检测的准确性。
. 通过图分析提高AI的可解释性
人们在采用AI中遇到的最大障碍之一是,AI系统对于如何做出决策是缺乏透明度的。举个例子,一个福利申领人申请了一个福利,结果AI根据申领人之前的申领记录,计算出其具有很高的潜在欺诈可能性之后,就拒绝了其申领请求。福利申领人理应被告知为什么其请求被拒,政府机构也应该确保这不是由于对特定种族、宗教、性别或者文化的歧视而导致的。
还有些例子,如AI系统计算后向申请人提供了具有更高利率的抵押贷款,或者提供了具有更高保费的保单。同样的,对于银行或保险公司来说,解释清楚为什么要求较高的贷款利率或者较高的保单保费非常重要,尤其是在涉及人种、种族、文化或性别偏见的诉讼中。
人们使用TigerGraph提取机器学习特征后,就可清楚地解释,为什么AI要根据计算出的特征值的组合做这样或那样的决策。此外,TigerGraph的GraphStudio可以展示出特征是如何计算的,以及什么导致了某一福利申领被拒,或者某一贷款申请要更高的利率,或者某一保单需要更高的保费。TigerGraph通过对互连数据的实时可视化、探索和分析,确保可解释的AI可以推广到企业内的所有用户以及企业外的参与方,例如福利申领者、抵押贷款申请者和保单申请人。
基于TigerGraph图数据库进行数据库内可解释机器学习DEMO
欢迎报名《机器学习图算法认证》
使用图算法加速高级分析和机器学习
成为TigerGraph Graph Algorithms for Machine Learning的认证者,表明你已经获得了使用图算法的高级知识和技能,如最短路径、中心性、社区检测、相似性和分类算法来分析互联数据,并进行机器学习以从数据中获得更深入的见解。