在当今的数字世界中,产生了大量的信息和文档。 (时间)高效地处理这些信息对于业务成功至关重要。对于我们人类来说容易的事情对于机器人来说往往特别困难 - 反之亦然。虽然我们可以轻松地理解和分类各种文档,但我们发现处理数千种表格很困难。注意力不集中,错误就会出现。这就是文档理解发挥作用的地方。文档理解可用于对合同、发票、表格等各种文档进行分类和分析,并提取相关信息。因此,文档理解提供了通过智能决策来补充已经部分自动化的文档支持流程的可能性。因此,以前手动且耗时的后续流程步骤可以实现自动化。此外,还创建了一个数据库,在此基础上可以进行分析和预测。
图 1:使用文档理解的好处
什么是文档理解?
文档理解(通常称为文档处理或智能文档处理)是一种允许计算机理解文档并从中提取信息的技术。为了实现这一目标,需要使用人工智能 (AI) 和机器学习领域的概念,例如计算机视觉或自然语言处理 (NLP)。为了理解文 投注电子邮件列表 档的内容和上下文,必须结合技术。结构化(例如标准化表格)、半结构化(例如火车票)和非结构化文档(例如博客文章)都可以处理。除了数字创建的(本地)文档之外,还可以分析扫描文档。
文档理解的过程从文档捕获开始,其中文档被数字化并转换为机器可读的形式。然后,如果存在多种文档类型,则会自动对文档进行分类以确定其类型和内容。然后使用文本识别技术来提取和理解文本。最后,进行信息提取。相关信息(例如名称、日期、金额或其他特定信息)以结构化格式进行识别和存储 - 如下图所示:
图2:信息提取示例
如何利用文档理解?
文档理解可以通过 UiPath 等工具集成到机器人流程自动化 (RPA) 中。因此,以严格基于规则的方式运行的软件机器人得到了扩展,包括智能决策选项。软件机器人本身会生成用于做出决策的数据库,例如,软件机器人可用于处理客户电子邮件(参见图 3)。客户发送一封电子邮件,其中包含 PDF 格式的健康保险申请扫描件。机器人处理电子邮件并将 PDF 文件保存在指定文件夹中。如果没有文档理解,此时就必须有人介入来读取文件、理解文件并将相关数据传输到适当的软件。由于对文档的理解,机器人现在可以承担这项任务。它将扫描的 PDF 文档数字化,将其分类为申请表并提取文本。然后从文本中提取并保存客户数据,例如姓名、保险开始时间和保险类型。提交申请后,现在可以派一名员工来检查该申请。下面,可以告诉员工该申请是否合理以及哪里存在歧义。