简介
一个自动的、通用的知识图谱框架,它从文本的非结构化数据开始构建,使用自然语言查询数据,并应用于一个大的金融股票数据集。
概述
一个自动的通用知识图谱框架,它从文本非结构化数据构建自身,并使用自然语言来查询和应用数据。
灵感
每天都会有大量的非结构化文本数据生成。企业、个人、新闻媒体等都会产生大量的非结构化数据,这些数据很难用结构化的方式进行分析和理解。
如果不进行大量的数据转换、数据模式设计和管理工作,业务用户/个人就没有更简单的方法来分析非结构化数据。此外,查询和搜索数据需要额外的努力,而且对于非技术人员来说很难轻松完成。
这个问题导致了Project Athena (雅典娜计划,以希腊知识和智慧女神命名)的诞生。我选择了一个接近100万(1,000,000)条记录的金融新闻数据集,并通过应用程序对其进行分析。
TigerGraph 最适合这个问题,它具有高性能、设计优雅的 GSQL 和丰富的数据科学库。
它能做什么
- 如果有一个智能系统能够自动理解非结构化数据中的实体、人、位置、对象以及它们之间的关系,并创建一个大的知识图谱,会怎么样呢?
- 如果有一个系统可以让我们使用自然语言搜索和查询这些数据呢?
- 如果不管数据所属的领域是什么,系统都是通用的,会怎么样呢?
例如,当智能系统在积累多年的金融非结构化数据上执行时,它会自动创建一个金融知识图谱,当在一堆医疗非结构化数据上执行时,它会自动创建一个医疗知识图谱。
例如,我们可以通过输入自然语言来查询知识图谱——
- “谁收购了安捷伦科技公司?”
- “谁在俄罗斯投资?”
- “谁在2014年到2016年间收购了微软公司?”
- “2014年谁跑赢了市场?”
- 甚至像“谁买了Facebook Inc .的公司”这样的查询也不需要依赖额外的查询工具。