|
Post by account_disabled on Jan 6, 2024 0:41:07 GMT -5
具有商业价值的页面:在 wordlift 网站(我工作的公司)上,我宁愿专注于我们博客的内容。当然,这会有所不同,但对于了解我想要关注的页面类型非常重要。 此标准可能很有用,特别是如果您计划以编程方式抓取我们的网站并使用抓取数据选择我们的注意力集中在哪里。继续阅读,我们会到达那里,我保证。 单文档文本摘要快速介绍 自动文本摘要是一项具有挑战性的NLP任务,它需要为长文本提供简短且可能准确的摘要。同时,随着在线内容数量的不断增加,对理解和总结内容的需求非常高。从纯粹的技术角度来看,创建格式良好的摘要的挑战是巨大的,并且大多数时候结果仍远未达到完美(或人类水平)。 关于自动文本摘要的第一项研究工作可以追溯到 50 年前,并采用了各种技术。从那时 手机号码数据 起它们就被用来从非结构化文本中提取相关内容。 “文本摘要的不同维度通常可以根据输入类型(单文档或多文档)、目的(通用、特定领域或基于查询)和输出类型(提取或抽象)进行分类。” -自动文本摘要方法综述,2016。 提取与抽象 让我们快速浏览一下压缩网页的不同方法。 提炼和抽象概括 “提取摘要方法的工作原理是识别文本的重要部分并逐字生成它们;[…]抽象概括方法旨在以新的方式生成重要的材料。换句话说,他们使用先进的自然语言技术解释和检查文本,以生成新的较短文本。 传达原始文本中最关键的信息”—— 文本摘要技术:简要调查,2017 年。 总结我们将使用一种算法来选择和组合文档中最相关的句子。通过抽象概括方法,我们将使用复杂的NLP技术(即深度神经网络)来阅读和理解文档,以生成新颖的句子。 在提取方法中,文档可以被视为一个图,其中每个句子都是一个节点,这些句子之间的关系是加权边。这些边缘可以通过分析每个句子的单词集之间的相似性来计算。然后,我们可以使用像页面排名这样的算法(在这种情况下我们将其称为文本排名)来提取文档图中最中心的句子。 文本排名算法 NLP 的碳足迹以及为什么我更喜欢使用提取方法来创建元描述 在最近的一项研究中。
|
|