简介
一个独特的新闻搜索引擎,有助于对新闻文章进行重复数据删除,并丰富您的阅读体验。
概述
一个独特的新闻搜索引擎,它可以消除噪音,让读者深入挖掘特定主题,或探索他们最感兴趣的新闻的多个方面。
灵感
该选手选择的主题是“减少新闻搜索的噪音”。时间是至关重要的,因此只针对必要信息来花费时间是非常重要的。 这也是本项目试图在新闻搜索领域解决的问题。
它能做什么
一个兼收并蓄的新闻搜索引擎,帮助删除重复的新闻文章,丰富您的阅读体验。 使读者能够深入挖掘某一观点,或探索手头新闻的多个方面。
我们是如何构造它的
- 从 newsapicatcher.com 获取新闻文章;
- 使用 PyTigerGraph Python 库与 TigerGraph 实例进行交互;
- 使用3种不同的NLP模型分别进行语义搜索、关键词生成和情感分析。使用额外的元数据来丰富新闻文章;
- 随后,将所有数据加载到TigerGraph实例中,并使用自定义GSQL查询以及特殊算法(如中心性和相似性)以多种方式处理/探索数据;
- 最后,结果会在 Streamlit Web 应用程序中显示给最终用户。