案例|金融信息智能搜索:以NLP与行业知识图谱构建数据处理管道,打破数据孤岛
时间:2021-04-14     来源:机器之心

虎博智能搜索引擎基于虎博MasterMind核心系统所打造,可利用自然语言处理、知识图谱等技术为券商等金融客户搭建智能数据中台,对接和管理海量文本数据。对于数据孤岛问题,系统可基于多数据源智能适配、搜索意图推荐、搜索功能快速构建等优势功能协助企业构建高效数据管道,挖掘数据价值及提高数据利用率。


证券行业:移动证券服务数据孤岛亟待智能技术优化用户体验


对于证券行业来说,移动应用已成为行业中不可或缺的服务载体。伴随移动互联网的高速发展,客户的交互、开户、交易、理财购买等行为由传统的PC端转向移动App。在此趋势下,券商普遍开始重视并开发的移动应用,并加大研发资金投入以优化服务效能及应用场景创新。然而,证券APP常有的交易、资讯、投研等各类内容服务板块往往由券商公司内不同组织提供,极易出现历史包袱、系统割裂、数据孤岛等问题。


以方正证券为例,其移动应用「小方App」经过4年的功能迭代和累加,已为客户提供交易行情、理财、投顾、资讯、消息、智能等数百项功能服务。然而,其股票信息、投顾信息、研报资讯等数据长期沉淀于各个独立业务板块,形成数据孤岛。用户在进行投研、产品决策等行为时需要频繁切换板块,无法高效顺畅地获取数据。由此,机构亟需改进优化搜索功能,构建可提供股票搜索、理财搜索、投顾搜索等综合性智能搜索服务。


移动证券智能应用案例解析:以虎博科技为小方App搭建智能搜索服务为例


为解决方正证券的数据孤岛问题,虎博科技通过引入其虎博智能搜索引擎,结合深度学习、自然语言处理、知识图谱等智能技术为小方App构建了智能搜索功能。利用搜索框为用户提供高效信息服务。


在方案设计流程中,虎博科技针对智能搜索功能这一目标服务功能的业务流程梳理出:用户问题、查询分析、组内搜索策略、组间搜索策略、输出API、展示卡片六个环节;其中所涉及的数据流程则包含:异构数据转换、离线索引构建、组内策略构建、组间策略构建四个环节。其中异构数据转换和离线索引构建都属于离线处理,虎博科技在数据处理管道上结合自身在NLP领域的审核积淀,提供了丰富的处理模型,从而提升搜索效果。


一、 核心设施 – 虎博智能搜索引擎


虎博智能搜索引擎基于虎博MasterMind核心系统所打造,可利用自然语言处理、知识图谱等技术为券商等金融客户搭建智能数据中台,对接和管理海量文本数据。


对于本案例中客户在高效数据处理上的需求,引擎可提供:

1. 多数据源智能适配 – 包含内外部财报、研报、公告、资讯、产品等数据在内,引擎可快速接入多种形式的数据(结构化数据及文档、表格、图片、音频等非结构化数据)。

2. 搜索意图推荐 – 引擎可基于丰富的NLP算法在索引构建过程中对数据进行深度知识挖掘分析,提供更快速的查询检索。

3. 搜索功能快速构建 – 引擎的搜索API模块允许用户通过简单的后台配置快速构建搜索服务功能,并配合NLP算法理解用户检索语义和意图,支持口语化问答交互。此外,搜索服务于可对接口进行限流和鉴权实现安全性保障。

4. 监控 – 系统全流程监控,帮助用户快速定位问题。

5. 反馈日志 - 用户反馈日志收集持续优化搜索结果。


二、 结合NLP与知识图谱搭建数据处理管道,实现智能搜索

为构建高效、精准的搜索服务,在数据流程中的离线处理部分,虎博科技基于自身在NLP领域的技术积累,通过意图识别模型、深度学习语义模型以及行业知识图谱和条件推理模型等技术优势构建数据处理管道,从而提升搜索效果。


意图识别模型 – 用于准确识别用户搜索意图,进而反馈更加符合需求的结果。模型可对query进行分类,识别出SQL类query 和匹配类query。若识别结果为SQL类query,系统将直接采用文本分类模型进后续处理;若识别结果为匹配类query则使用深度排序模型。


深度学习排序模型 –用于查询匹配类query与文档的相关性。模型采用对离散特征做Embedding的方法,借鉴了FNN的思想,然后采用Wide&Deep模型同时训练一个Wide侧的线性模型和一个Deep侧的神经网络,Wide部分提供记忆能力,关注用户有过的历史行为,Deep部分则提供泛化能力,关注一些没有历史行为的Item。


行业知识图谱和条件推理模型 –用于将自然语言问题提炼为查询条件在图谱上推理检索(NL2SQL)。具体地,采用了一种基于草图的方法,其中草图包含一个依赖图,因此可以通过仅考虑其依赖的先前预测来进行下一个预测。预测列时采用sigmoid函数来计算每个列出现的概率,并采用列注意力来提高预测能力,并使用序列到序列的进行预测取值,从自然语言中提取查询条件。


此外,针对小方App所提供的证券信息、理财等内容服务,虎博科技基于大量的证券方面的研报、财报,在通用的语言模型(例如bert,albert)上,采用持续学习的方法训练了行业语言模型,全面的运用于后续的实体识别、关系抽取、情感分析模型等。而对于部分英文研究材料,则基于大量的证券双语平行语料训练的翻译系统,满足了翻译需求,并通过大量的证券语料以及标注,结合实体识别和关系抽取辅助,构建完善的证券垂直领域知识图谱,为下游的检索任务提供支持。


三、应用效果


引入虎博智能搜索引擎后,方正证券旗下小方App信息服务效率至少提升50%。通过将原来各个二级页面的搜索框,以及不同的功能整合成为首页搜索框,形成统一的搜索入口,实现 「股票」「理财」「投顾」「资讯」「发现」等全场景信息的一站式服务。


理财产品智能搜索可基于虎博科技针对证券行业的自然语言理解模型及知识图谱,对产品进行多属性智能关联,连接用户和产品,提升产品的转化率;研报资讯精准搜索可对于研报、资讯、公告以及其他非结构化数据库中内容提供深度语义搜索,快速提供高价值信息;投顾信息搜索则通过综合展示平台,让用户能够方便的联系投顾、认知投顾、签约投顾,促进业务变现,且缩短了用户查找信息的路径。