找回密码
 立即注册
搜索
查看: 146|回复: 0

数据与信息:计算机存储与人类分析能力的差异及计算机辅助分析的可能性

[复制链接]

2万

主题

0

回帖

6万

积分

管理员

积分
65321
发表于 2024-12-11 08:31:47 | 显示全部楼层 |阅读模式
存储财务报表的计算机有一条“数据”,持有财务报表的分析师有一条“信息”。不同的是,分析师可以通过阅读财务报表获得相关“知识”,并据此做出投资决策。

存储30,000份财务报表的计算机也存储了30,000条“数据”,但持有30,000份财务报表的分析师不再拥有30,000条“信息”。原因很简单:计算机内存是线性的,但人类的处理和分析能力却不是——即使我面前有三万份报告,我也只能眼睁睁地看着其中大部分停留在“数据”状态。什么也做不了。

除非……计算机可以帮助我吗?即使我们说的语言不同,计算机也无法“理解”人类所说的语义。只要它按照一定的规则、以人类能够理解的方式组织数据,我们是否也能从三万条“数据”中获得等量的“信息”和“知识”呢?

这就是文印互联网希望实现的目标:处理复杂的数据,总结金融知识和逻辑,帮助解决各种金融场景的问题。

文印开发了数百个能力模块来承担这样的转变。有从非结构化数据中提取结构化信息点的模块,可以通过自然语言理解技术将PDF和Word格式的报告、研究报告、新闻等转换为结构化信息;还有利用知识图谱技术进行融合、归纳、演绎的模块;还有一些模块利用自然语言生成和摘要技术来转换信息形式。如何将用户需求分解为可以通过算法解决的问题?以及用什么方法来解决呢?你会遇到什么困难?微银互联网首席科学家郑锦光博士和首席科学家马建强向机器心详细介绍了这一过程。

从“机器自然语言”和“人类自然语言”到机器和人类都能理解的“知识图谱”

文印的知识图谱生成技术完成了将自然语言报告转换为结构化数据,然后由结构化数据生成知识图谱的工作。它不仅需要处理大段人类自然语言描述,还需要提取大量描述视觉元素的“机器自然语言”。

文本转结构化数据能力模块执行各种常见的自然语言处理(NLP)任务。这些任务包括单独的信息点提取问题,重点关注报告中包含的公司基本信息,例如公司名称、高管姓名、行业描述等。财务报告的复杂性不仅体现在人类自然语言表达的多样性上,而且表现形式多种多样——财务报告从来都不是纯文本,它们还包含大量用“机器自然语言”表达的图表,而这一类问题可以类比为计算机视觉问题。

当计算机“查看”猫的图像时,它看到的不是猫的概念,而是一个充满数字的巨大矩阵。因此,计算机视觉的任务是弥合“猫的概念”和“猫对应的巨大矩阵”之间的语义鸿沟。这项任务的难度在于,对图像的一些非常小的调整可能会给矩阵带来巨大的变化:例如,如果我们将整个猫图像向左平移一个像素,这对人类来说太小了,无法用裸体识别眼睛。变化对于机器来说是翻天覆地的:矩阵中的所有值都变了,但它仍然代表的是同一只猫吗?

同样,PDF文档只表示字符的位置信息,并没有字符之间的布局信息。例如,当计算机“查看”pdf格式的报告时,它看到的“表格”与人类看到的完全不同。两个表中的水平线对于报告的读者来说似乎无法区分,可能是从完全不同的机器语言“翻译”而来的。一种可能是“将这张包含水平线的小图片平铺10次”,另一种可能是“用黑色填充坐标1到坐标2的空间”,可能还有数百种其他表达方式。



文印开发了专门的能力模块来解决表格提取的问题。该模块可以识别数百种用于表达文档中表格的“机器自然语言”,从可视化角度还原文档的章节结构和上下文信息,最终生成统一的结构化数据。

生成结构化数据后,可以通过对齐不同文本中描述的实体、关系和指标来构建相应的知识图谱。实体识别、关系发现和指标对齐一直是自然语言处理领域比较受关注的问题:例如,如何判断A公司董事长“王石”和公司董事长“王石”是否是A公司董事长“王石”? B公司的股东是同一人吗?这就需要对他们的简历和相关信息进行深入的分析和比较。例如,财务数据中的“其他流动资产”和“流动资产其他项目”、“归属于母公司股东的净利润”和“归属于上市公司所有者的净利润”都是同一指标,表述如下:不同的方式。

郑锦光提到,文印数据库已提取上市公司信息17000余条、高管信息37万余条、业务及产品描述4万余条。还有成对、成组出现的信息变化分析问题:从海量文本中,找出分析师可能关心的300多个财务指标是否发生了变化、变化的趋势以及变化的原因。

人工智能中的黑猫和白猫

在机器学习领域,解决不同问题的思路往往是相同的。然而,解决同一问题的方法有很多种。哪种模型最合适取决于任务类型和数据量。 ,而且还存在根据所需的准确性和效率而变化的问题。在文印的系统中,我们经常可以看到同一个任务在不同的场景下使用不同的模型。 “黑猫白猫抓到老鼠就是好猫。”

例如,对于同一个关系抽取,所采用的方法可能是基于统计学习的,也可能是基于规则的,甚至可能是两者的结合。

在冷启动阶段,基于规则的方法“发现”实体之间的许多关系类型,并为每种关系类型积累大量实例。然后机器学习方法学习不同实例中隐含的抽象关系,然后将更多数据放入其中。最后,在成熟阶段,规则系统和机器学习系统相互配合、优势互补,完成关系抽取任务。

当我们拥有大量数据时,为什么我们仍然需要合并基于规则的系统?马建强这样解释这个问题,“虽然基于规则的系统因为缺乏衡量标准,在学术界很少被提及,但在工业界却被广泛使用。它就像一个小而细的筛子。虽然它可以遮挡面积小,漏掉了很多,但能通过的东西一般都是你想要的(精度更高,召回率更低)相比之下,基于学习的系统更像是一张面积更大但网格更粗的渔网。筛选范围很大,但是。碎片不可避免地会被捕获(精度较低,召回率较高),因此业界喜欢将两者结合起来以达到最佳效果。”

“我们针对每个问题都尝试了多种模型。”郑锦光表示,“有些方法可能适合通用数据集,而另一些方法可能更适合特定领域的数据集。我们有一套完整的数据采集和验证系统,积累了大量的数据,并且然后在自己的数据集上尝试了多种方法,找到效果最好的一种,比如对命名实体识别问题效果最好的是LSTM+CRF方法,对于实体消歧,我们使用了我博士的成果。研究:基于消歧关于信息熵和语义相似性。”

这里提到的实体消歧是结合多种方法以获得更好结果的另一个例子。信息熵是一种量化信息量的方法。例如,如果要确定一个人的身份,姓名提供了一定的信息,但由于重名的存在,无法确定其唯一性。身份证号码的信息含量非常高,因为它是唯一的,但不容易获得。

在财务报表的示例中,高级管理人员的姓名仅提供有限的信息,但财务报表中不仅仅包含姓名信息。如果将“姓名+出生日期”或“姓名+工作经历”等不同信息组合起来,通过积累和叠加,逐渐地,就可以准确识别身份的唯一性。在进行实体消歧时,针对不同文本中可能重叠的实体周围出现的信息,计算基于信息熵的语义相似度来完成消歧。

从地图到产品:除了拥有与分析师相同的知识之外,还需要具有与分析师相同的回答问题的能力,甚至比分析师回答得更快。



如果你只是想要拥有能够回答简单信息查询问题的数据,那么构建一个数据库和一个基于检索的问答系统就足够了。我们之所以使用比数据库更复杂的知识图谱来进行数据结构化和问答,就是为了将复杂问题的答案一步一步呈现在用户面前。

在财务问答场景中,除了事实性问题(如公司股价/资本积累率/实际控制人)外,最常见的问题有三类:第一类是行业内有哪些公司(公司的同类公司)。企业有哪些?),第二类是行业规模,第三类是行业的上下游产业。这时,知识图谱方法相对于搜索方法的优势在于,它可以从条件复杂的问题中提取出多个条件,并从图中找到符合条件的“准确”答案。

在文印智能问答系统中,从用户提出自然语言问题到收到自然语言答案,要经历意图识别、查询规划(query)、答案生成三个过程。

“意图识别”使用分词、词性分析(POS)、实体识别、句法分析()、语义分析()等基本自然语言模块。

在“意图识别”之后,“查询规划”负责生成类似于数据库查询语言中的SQL语句。这时,只要文印的知识图谱中有相关信息(包括行业、子行业、上下游子行业、产业链、企业实体等多层实体和关系),获取答案本身就变成了是一项比较成熟的技术。数据查询问题。最后,“答案生成”将使用规则和模板来组织语言来回答相关问题。

除了打包的问答系统外,企业用户还可以从“文印云”中选择所需的能力模块,拼接成所需的产品:

该数据咨询公司将“研究报告搜索”功能集成到自己的产品中,让其数据产品的用户不仅可以搜索研究报告,还可以搜索研究报告的特定图表和部分区域。这相当于结合了分析师的工作。前端并集成到搜索中;需要发布大量公告的金融行业核心机构,可以使用“公告摘要”功能快速获取机器提取关键信息点并按照规定格式组织语言形成的摘要。它是帮助组织员工节省时间、快速提高效率的手段。

“根据不同场景和服务的需求,可以对模块进行相应的调整和组装,形成有效解决问题、赋能企业用户的应用。”马建强总结道。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见汇智】 ( 京ICP备20013102号-17 )

GMT+8, 2025-5-7 21:19 , Processed in 0.065186 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表