虎博科技技术副总裁谭悦:为什么你需要一个金融版「谷歌」?
时间:2020-05-19     来源:雷锋网

近期,虎博科技技术副总裁谭悦做客雷锋网AI金融评论公开课,以“如何利用NLP释放搜索框潜能,提升金融业客户服务品质”为题,从NLP在金融领域的落地出发,详细分析了面向行业的搜索框需求所在,以及打造搜索框的技术门槛。


以下是谭悦演讲全文与精选问答内容:


NLP+金融的6大应用场景


人工智能这个概念已经火了很长一段时间,但自然语言处理的应用其实才刚刚开始。


从技术和应用具体划分,一般来讲金融科技分成三层。最底层的基础设施,主要就是现在的云计算平台,比如阿里云、腾讯云、华为云等,很多大金融机构也开始自建私有云。


大数据的技术越来越成熟,算力、计算平台的解决方案通用化,使得大家能够像一个组件一样快速地应用到大数据。


另外,在芯片层面,包括GPU,和一些专门针对AI进行优化的芯片,可以把原先很多算法层面的东西通过硬件来加速、实现,大大提高了我们的算力水平。


基于这些基础设施之上,又具体衍生出了很多技术,包括像计算机视觉、生物识别、语音识别、语音合成,还有自然语言处理、知识图谱,以及机器学习、深度学习,它们都层出不穷地开始爆发出来,还不仅仅是停留在论文层面,而是可以逐渐地真正地落地到实际的业务场景当中,发挥真实的作用。


在应用层的话,有智慧银行,各种业务都可以直接语音来办理,甚至有些机器人客服可以帮你完成很多操作;智能保险在保前、保中、保后都会有各种智能化的一些产品或服务。


智能投顾和投研比较偏向于在投资领域,像券商能够利用一些历史大数据,同时针对不同用户对风险、偏好的一些分析,来提供有针对性的投顾和投研产品;智能监管在监管层面越来越多地开始在应用。


AI的技术是有生命周期的,从刚刚研发出来,可能是理论层面或学术界讨论很多,当它真正有技术、有推出、可以落地后,会逐渐在某一个阶段开始有一个爆发性的增长,再进入一个成熟期,逐渐地这个技术再进行衰退。


人工智能技术从整体上来讲,这个技术的生命周期有过三波,我们现在已经是在第三波的生命周期当中了,我们现在所说人工智能是基于最新的大数据、云平台和深度学习等各种各样的技术整合出的新一代的人工智能技术。具体的各项技术所处的生命周期阶段也不一样。


最近一段时间大家可能感受到比较多的还是在计算机视觉、语音识别、语音合成方面的应用,基本上你在银行上办一个业务,给你人脸识别一下,身份校验,这都是很常见的。


还有语音的识别可以直接地语音发问题,甚至有的时候有一些业务员打电话你跟他聊两句发现这原来是个机器人,一开始都没有听出来。这都说明现在这两种技术,其实相对是已经在一个从初级到成熟的过程当中,也就是在高速增长,这部分也催生了非常多的AI的一些独角兽公司。


虎博科技现在主要聚焦在NLP,即自然语言处理,有一些项目的落地,并还在不断地摸索和创新,寻找比较成熟的能够真正推进业务的一些使用场景。


我们现在能够看到的在金融领域一些最常见的应用场景,总结下来大概是这么几项:


首先,智能搜索。这种企业级的垂直类搜索,不再仅仅是网页、新闻,而可以是很多垂直的深度信息,比如说证券、研究报告、大宗商品、理财产品等等各种行业的垂直的信息搜索。


第二,智能营销。现在很多产品在推荐时都进行了深度的用户画像分析,知道你是什么样的风险倾向、偏好、消费能力、家庭情况等等,这样销售推荐的商品就非常定制化。


比如说你刚工作,可能就会给你推荐保险类;等到你工作小有基础,就开始推荐理财产品,看储蓄是不是可以得到更多的收益;等到它预测你应该要结婚、生小孩了,就开始推荐儿童保险,或是给孩子未来的储蓄等等——很多时候你接到这样的信息,就已经是被精准定向到了一个范围内。


第三,智能舆情。现在很多的信息和事件,都是从网络上先爆发起来的。如何通过全网的信息,不仅是传统媒体,还有自媒体,快速识别和预测潜在风险,风险可能是跟个人关联、企业、产品相关联。


有了这些舆情的信息以后,金融机构做智能风控,就可以把信息用于一些风控和预警的场景,比如说银行的贷款客户,或者是供应链上下游关系,比如签订合同前需要知道公司前景。


当然现在一些企业征信数据可以查到,但更难的地方在于怎么样通过一些线索来预测——不仅是感知,而且能够预测潜在要爆发风险的可能。


前面说到的两个应用偏向于如何控制风险,接下来说到的应用偏向于如何提升我们的服务质量。


现在像C端用户用得比较多的头条、抖音,其实很多信息原先也在那里,但能够根据用户偏好做定制。


这种通过机器深度加工之后的服务,给人的感觉会跟原先的不一样。比如去银行开卡,可能需要取号排队,现在机器上身份证输入,人脸识别扫一下,人工摁个指纹,整个流程就办完了。不仅在银行,包括政府,越来越多的流程都在应用这些智能服务,简化流程,提高效率。


公司智能运营方面,以前可能是大家开会探讨运营和推广,现在很多运营都是数据来推动的,比如说文档审阅、机器翻译、信息抽取、市场热点的判断等等。只有通过这种全网的信息不断地反馈,监控现在的市场热点,才能更好调整运营的步骤,人力也可以减少。


比如车险出保,以前要有专门的审核员,现在手机拍一下车辆就知道这个情况能不能出保,流程就自动进行下去了,这就大大减轻运营的成本。 


智能搜索的价值释放


大家在移动端产品上获取信息或者接受服务时,主要有三种路径。从银行、券商APP或者是美团、支付宝等APP上都能够看到,几种交互方式是并存的,在不同的场景下发挥自己擅长的作用。


首先是卡片式,或者九宫格的门户,它有很多功能罗列出来,这种一般都是比较大的板块,可以在首页提供各种各样的服务。


但几十个图标在上面,不好找。现在的改进方式是,可以对菜单进行个性化的定制,这比单独列出来会好一点,但肯定还不够。


用户看完菜单,可能需要进去做事情或者找点信息,那么第二种方式就来了——它是一种类似于智能客服的方式,比如现在一些移动运营商的APP,可以通过客服对话的方式来获取一些服务,也许是人工直接对接,也许一些常提的问题可以通过机器的服务解决。


最后还有一种方式,当你想要的服务、你的问题开放性更强,也可以通过搜索框来提出你感兴趣的问题,直接在搜索框里面搜索。


这搜的可能就不仅是一个内容、一条新闻,还可能是某个产品、某个功能,你想做的一件事情等等,这都可以通过搜索框来统一触达。


总结来说,卡片式门户只能是最基础的大类功能,如果把所有小类放上去,最后就变成大迷宫,找不到自己想要的东西是什么。但它能列的基础功能又很有限,很难承接现在越来越丰富的服务和产品。


这有点像是互联网爆发时期,一开始可能是通过产品黄页或者门户网站就解决问题了。


但随着网页内容越来越多,这时候谷歌、百度这样的搜索引擎就开始出现了,这是信息爆炸必经的一个路径。


智能客服,已经有一些智能化的人机交互,基本上是多轮的问答方式,一个问题过去以后得到的信息是相对比较明确也有限的,不可能一下子把很多信息都给到用户。


这里更常见的是相对简单的操作,可以在一轮或几轮对话之后就完成的工作。比如你只是想把手机流量套餐改一下,插叙出行路线是否符合国家疫情防控的需要。但如果你是想写行业研究报告,那这种对话式的搜索结果其实解决不了问题。


最后就是搜索框,它的好处就是只有一个单一的入口,非常简单,基本上用过搜索引擎的人都知道它是做什么的,是一种下意识的选择,有什么问题就提。


它能够呈现的答案也非常丰富,可能是一个搜索列表,也可能是直接给你转跳到某一个业务办理的地方,或把各种内容通过多类卡片的融合来展现,这个取决于应用提供的内容本身。


整体来讲,搜索框的优势还是比较明显:它可以提高用户的使用体验,把很多隐藏比较深的功能触达到用户


大家如果经常用电商产品,就会发现它不仅仅是个搜索框,它会不断地推荐出热门内容和你可能会感兴趣的内容,已经变成了人机或人和产品之间交互的一个小窗口。这也是一种可以用于营销、触达用户、推荐产品和优质内容的入口。


不过搜索框其实也有一定的技术门槛。用户提问五花八门,同一个事情有十几种讲法,甚至可能用不同的语言来问,怎么真正理解用户的意图、关联到最相关的内容上?


智能搜索背后需要哪些技术支持?


具体有哪些技术,是在面向行业的搜索产品需要用到的?


在谈技术门槛之前,先说说行业垂直搜索,和像百度、谷歌这样的网页搜索,或通用搜索引擎,它的差别在哪里?


大家经常用的话,可以感觉到,像百度、谷歌基本上能搜到的内容,像网页、知道、贴吧、地图、图片等等,基本上是相对比较通用的图片、文字及地理信息检索的一个入口。


但要在金融,或是其他一些行业垂直领域,它要搜的东西其实是非常专业的。


举个例子,比如说最近疫情,有些上市公司现在开始调整经营策略,开始来生产防疫设备,比如口罩、呼吸机。你想知道,最近一段时间在生产口罩的公司,或者开始转型做医疗设备的公司有哪些。


当你提问,比如问的是“医疗设备”,那么要搜的内容就不能仅仅是医疗设备这四个字,而是要能够理解医疗设备这个概念背后所代表的产业链。这是一个实体,它对应的关系和关联到的其他实体有哪些。


口罩也好,呼吸机也好,这些内容如果只是单纯地通过关联次层面,你是无法感知到的。


所以底层需要一个针对特定领域的、比较专业的语义模型和知识图谱来支撑,才能在用户有类似提问时,一瞬间理解到医疗防疫设备代表哪些内容,同时又有哪些公司和这些内容相关联。


但这些信息,其实是出现在很多相对专业的内容里面,比如公司公告、行业研究报告,或者是一些招投标的信息。


这些数据本身是深埋在很多深度的文档里的,它可能是一个PDF文件,也可能是一个Excel表格,也可能是一个网页的公告,这些东西如果没有全盘整合、做数据或者知识的深度挖掘和提取,是很难直接匹配到的。


这个过程需要有一些技术。


首先,数据方面,从传统的金融数据到一些非结构化的文档,甚至还有另类数据全盘的覆盖,深度理解这些信息,把不同格式、不同类型的内容里涉及到的关键实体、主题、知识提取出来。


提取出来之后能够通过一些大数据、NLP的方法形成信息数据中台,还要保证时效性。


同时,各种类型的内容要通过综合化的排序整合,这个也是虎博搜索一直在做的、在深度优化的工作。


第一步,就是底层的文档的加工,从文档的格式转化、知识图谱的挖掘、语义模型的训练到知识条目的整理,因为数据量很大,从工程角度来讲也会优化索引数据的一个构建,这些步骤基本上是缺一不可的。


用户口语化搜索意图理解


整理清楚数据之后,第二步就是怎么更好理解用户的提问意图。


有时候用户想要的是一个具体的实体,有些时候是想要你帮他做一件事情,有些时候是一些条件的筛选。


为了让搜索引擎更加智能,更像是独家顾问的角色,就需要去理解很多用户的问题当中所涉及到的实体、含义,或者是一些指标或条件的筛选,并且把它转化成底层搜索引擎能理解的条件,最终从知识库里面把海量的信息能够召回,再整合,并进行重现。


文档信息深度提取


这当中涉及到的核心技术,刚才也陆续提到了一些,比如说PDF文档的深度提取,比较完美的还原,表格、文字、图片,甚至是目录结构、核心观点,都从这种非结构化的报告、文档中提取出来,其实这就是把非结构化文档变成类似于半结构化的知识,这样才能在后续里更好分析和检索。


金融NLP语义模型


我们针对金融领域,也做了比较多的预训练模型。如果所有的模型都等到用的时候,再去训练或迭代,它本身更新的时效性肯定没有办法达到要求。


所以我们针对金融领域这些海量语料,包含数百亿字的内容,进行深入的训练,得到了专门针对中文的金融领域的语义模型,包括词向量及现在比较主流的BERT等等,这样再应用到算法层就会非常快。


实体关系识别/抽取

从非结构文档中提取知识,比如从新闻中通过模型自动预测或识别实体、人名、关系、数字、指标等等信息,这些信息后续是可以通过半自动的方式,自动构建出一些知识图谱。


以前这种知识图谱的构建还是偏向于专家的系统,然后通过专家意见来构建,这种方式对预先知道的知识依赖非常大,人力投入也相当巨大,可以借助自动化的方式大大缩短这个过程。


智能语义标签


我们也在研发一些标签的体系。标签最大的好处就是,可以把语义相关的概念抽象出来。


比如刚才提到的医疗设备,就是一个非常典型的概念标签、行业标签,还有最近比较热门的原油,这是一个相对短期的事件,但也可以成为一个热门的标签。


情感/风险分析


很多内容大家表述的时候,都是带着自己的情感的。比如说瑞幸咖啡的财务造假,大部分可能是负面的;但换成其他事情,可能是中性的,或正面的。


如何来评价大家对信息的情感?


首先,你的情感正负面是如何来去衡量?当这类事情发生,一般资本市场的反应,一个人看到这种信息以后的第一反应是什么,这需要通过大量的历史数据来训练。


这样,当同类的事情再发生,就会首先有一个基本的判断。


当然这个基本的判断,不一定跟市场的资产的股价、走势完全一致,但会提供非常好的信号,帮助投资者或者信息检索的用户做初步的判断。


用户画像与个性化推荐


最后一个核心的技术:很多情况下用户不一定知道自己想要搜什么。这个时候,搜索技术和个性化推荐的是要相互结合的。


一方面是,用户可能之前已经搜过、看过一些内容;另一方面,当有同类型的信息出现,我们又可以第一时间地去把这信息推荐出来。


这里运用到很多基于内容的、协同过滤的算法,还有现在深度学习也有一些推荐的模型,可以用到这里面来。


最关键两个信息,其实还是要把内容、产品的特征库,和用户画像的画像库先构建起来,然后通过各种方式去做匹配。


为用户推荐到比较好的内容以后,就会源源不断地有更多的浏览,甚至是产生更多的搜索行为,这就形成一个正向的循环,不断地增加用户的黏性。


总体来说,虎博科技现在整体的产品和解决方案是分为五大类的,包括刚才提到的垂直搜索引擎、NLP算法中台、个性化的推荐引擎、智能问答机器人、面向企业的舆情监控的系统。


自研的技术和系统,使得我们有非常灵活的、可以优化和定制的空间。比如说券商或者股债基领域,当大宗商品行业有需求,就可以快速迭代,适配新场景。也会针对某个特定行业,一些具体应用场景怎么落地算法,做非常多的优化。


真正推动我们社会不断进步、不断进展的不仅仅是互联网公司,还有很多传统行业的公司,他们也需要智能化的升级和改造,这些技术其实能够用在各行各业里面让它才发挥更大的价值。


另外,我们致力于深入深度挖掘各领域应用场景,满足客户及用户的多元实际需求,让技术实地赋能商业。最后,基于我们的技术壁垒和对大数据的洞察,可以融合多项核心优势进行场景应用融合式创新,带来颠覆传统的信息获取方式和方法。


互动环节精选


问题1:对于企业级用户来说,智能搜索能够解决什么痛点?


谭悦总结一句话。数据密集型企业和政务机构都需要智能搜索。


首先要知道是什么企业,所处在什么行业,不同的公司痛点肯定是不一样的。对自然语言处理来说,什么样的公司会有比较大的痛点呢?


首先它应该有比较多的文字类的信息(这些信息最好是线上化的,如果非线上化的话,我们也可以逐渐地把它变成线上化,但这就需要一个预处理过程),并且需要有大量的一些人工来处理这些信息。


原先处理这些信息或者获取这些信息的效率是比较低的,当效率提升以后能创造出极大的收益。比如金融机构中投资、投研就是非常典型的。


问题2:智能搜索里如何运用知识图谱?


谭悦:智能搜索里我们其实主要用了两类不同的技术,一个语义模型,一个知识图谱,两者相互配合。


知识图谱其实出现得非常早,很早的时候包括从谷歌大脑、百度知心,希望把世界上主要的知识都通过一个图谱归纳,这个理想实现也是有很多困难。


这个世界上面的知识其实是非常庞杂的,热门的大家都知道的有很多,但是有很多其实都隐藏的很深或者需要一些特别精通熟悉某个领域的人士才会知道了解。所以要把开放域全部知识放在图谱里面是很难的。


但是一些特定领域的知识图谱是可以去构建的,比如说基于公司行业概念,基于供应链上下游,基于一些人物和实体关系的这些图谱,现在我们无时无刻都在用到。


我们通过一些语义模型,从海量数据的统计意义上来构建对这个世界的认知。当知识图谱能够明确关联的时候最好,如果没有,那么通过语义模型来进入一个概率上面的关联,甚至可以用这些概率上的关联来帮助逐渐地构建和拓展知识图谱,所以这二者之间就可以相互配合。


具体来讲,一般会在什么领域用到呢?比如,底层的信息挖掘、用户的理解、召回、排序,甚至做一些推演和比较的时候,都可以用到这样的技术。


问题3:虎博搜索的智能搜索方案目前已经输出了吗,在哪些机构用了,效果怎么样?


谭悦:我们第一个切入的场景是金融,已经向很多知名机构输出了我们的智能搜索方案并达成合作。例如,我们已经与50%的国内头部券商达成合作,目前也开始覆盖到了大宗商品、交易商、保险、基金、代销、银行等客户。除此之外,我们正在向更多的领域扩展,比如政务、大数据中心、媒体、医药等。


整体来看,项目在实施的时候并不是一次性地全部做完的,会根据不同的场景需求,分阶段进行。公司从去年初开始商业化,目前我们很多客户都已经进入到二期、三期的阶段了。


问题4:智能搜索的思路和做智能营销的思路是不是差不多?


谭悦:用户产品和商业产品是两条非常不一样的思路,对于用户产品也就是我们说的智能搜索来讲,最关键的优化目标,能不能够比较准确、快速、全面的找到用户感兴趣的信息。


所以它的评价指标是准确率、召回率、用户点击率、停留时间等等,当然如果有一些显式反馈的机制,如打叉关闭的这种机制的话当然也可以。


对于智能营销来讲,它其实跟广告就很像了,它最终考虑的是一个商业收益,也就是转化率,你点得再多,最后没人买单那是不行的。或者说买了单,但是你的投入产出比不行,那么营销策略就是有问题的。


所以在这个过程当中,底层算法是有一些类似,但最终要优化的目标不一样,就决定了在这个产品当中运用算法的方式和优化算法的目标有所不同。


问题5:训练算法要怎么解决和客户合作的数据安全问题,尤其是金融行业?


谭悦:第一,我们提供私有化部署和定制化开发的空间。


第二,为了能让上述过程更高效,我们把很多功能变成工具化的,把很多算法变成有预训练的,这样可以用于金融机构的内部,对接到机构自己的数据中,在机构自己的系统里进行更新,快速地适配到那个环境里面去。


问题6:自然语言处理项目落地是公有云还是私有化多,如果是私有化的话应该怎么去迭代模型?


谭悦:如果是从全行业来讲,其实公有云和私有化都有,具体到金融行业,私有化比较多。公有云现在处在一个被逐渐理解和接受的过程当中。一方面因为数据安全性,另外一方面某些核心业务从法律法规的要求上来讲也需要私有化。


但如果是私有化,怎么去迭代模型?我们模型的迭代,已经不一定非要通过公有云的方式才能够提供,我们有自动化的迭代模型工具,可以理解为只要有源源不断地把数据,我们经过工具化的调参、优化就可以有一个模型更新出来。


如果原来已经有的一些技术,我们可以先做完全的重构以后,再到金融机构内部来进行测试和重新部署。


问题7:自然语言处理在风控领域的落地场景有哪些?


谭悦:传统的银行业务里有自己的风控模型的定义,主要是基于资金、交易、用户或者企业账户的信息。自然语言处理是新涌现出的,用于辅助风控的技术。


现在很多风险的来源并不是来自于欠款没还,或者消费陡增,亦或是有诉讼官司,更多的是来自于全网的另类数据,比如说企业的涉诉信息、自媒体评论等,甚至很多数据可能出现在微博、知乎、公众号、贴吧甚至是天猫商品评论里面。


利用自然语言处理技术可以对这些数据进行全面、系统的分析,以提前预判潜在风险,升级风控等级,这就是一个典型的应用场景。