自动汇总使工作变得更加容易,因为此类任务需要花费大量时间,并且本质上是数据转换的一种形式。这里的数据转换是从大量详细信息开始的转换。人类比计算机需要更多的时间来吸收这些信息,获得对其的高级概述,并决定如何使其更易于人类管理。
在这篇博文中,我想特别关注提示工程以及使用大型语言模型(在本例中使用 Aleph Alpha Luminous)对文本进行机器摘要的相关准备工作。第一部分涉及摘要要求以及与法学硕士相关的技术挑战。
基本方法论考虑
总结到底是什么?一个很好的解释是:“摘要是对内容进行 丹麦 whatsapp 数据 简短概括的名称,不带任何评价性成分。摘要或目录包含[完整作品]的所有重要部分。它必须考虑到可能最重要的方面并忽略其他方面,因为根据定义它应该比整个作品短。 […]它应该提供一个快速概述[…]。”)这清楚地表明:摘要应该简短,并精简到要点,并提供价值-免费概述。到底什么是“短”,什么是“本质”,仁者见仁,智者见智,因此是非常不同的。
当出版经过正式质量流程的作品(例如一本书或一篇科学文章)时,长度已确定为 150 至 250 个字。如下图所示,一些学术期刊甚至提出了实质性要求。下图通过“引导总结”展示了这样的规范。这里首先解释本出版物的原因(目的),然后解释研究方法(设计/方法/途径)、结果(发现)、发现或局限性(研究局限性/影响)以及科学附加价值(原创性/价值)被考虑。
图 1:科学期刊摘要示例,来源
特别是近年来,格式“TL;DR”=“太长;未读”被强制执行(见图 2)。在此示例中,编辑器指定了大约 5 个缝合句子的准则,每个句子的最大长度为 85 个字符(包括空格)。
图 2:《国际信息管理杂志》中的 TL;DR 格式示例。这两个角色模型应该作为根据既定指南设计机器摘要的起点。
法学硕士总结时面临的挑战
假设输入具有干净的数字化文本格式,因此在各种中间过程中不易出错,则会出现以下挑战:
技术性质的机器总结挑战概述
挑战 描述
上下文长度 法学硕士倾向于更好地利用文本输入(=上下文)开头或结尾的内容,而不是中间的内容。即,高上下文输入会带来性能损失的风险。
经济因素 成本乘数是及时发出指示和持续处理摘要文本。
通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要,第 1 部分
-
- Posts: 52
- Joined: Sat Dec 21, 2024 6:13 am