当前位置:首页 > 技术分析 > 正文内容

Nvidia Ingest 让从文档中提取结构化信息更简单

ruisui882个月前 (02-24)技术分析9

作者 | Sergio De Simone
译者 | 平川
策划 | Tina

Nvidia Ingest 是一种新的微服务,旨在处理文档内容并将元数据提取到明确定义的 JSON 模式中。Ingest 能够处理 PDF、Word 和 PowerPoint 文档,并使用光学字符识别技术从表格、图表、图像和文本中提取结构化信息。

要使用 Nvidia Ingest,需要向其提供需要摄取的有效载荷的 JSON 作业描述。然后,你就可以以 JSON 字典的形式检索结果,其中包含提取到的所有对象的元数据、处理注解和时间 / 跟踪信息。

Nvidia 没有提供有关 Ingest 性能的数据,但表示它具有可扩展性,可以使用多种处理方法来提高准确性或增加吞吐量。对于 PDF 文档,Ingest 可以使用 pdfium、Unstructured.io 或 Adobe 的内容提取服务。

例如,借助nv-ingest-cli(用于与 Nvidia Ingest 交互的命令行工具),你可以使用--task参数指定如何处理文档,其中包括一个extract_method选项:

nv-ingest-cli \... \ --task='extract:{"document_type": "pdf", "extract_method": "pdfium", "extract_text": true, "extract_images": true, "extract_tables": true, "extract_tables_method": "yolox"}' \...

Nvidia 明确指出,不能使用 Ingest 创建流水线,对有效载荷中的文档执行一系列操作。不过,你可以运行各种预处理或后处理转换,包括文本分割和分块、过滤、嵌入生成和图像卸载。也就是说,在执行同一个 nv-ingest-cli 时,可以使用多个--task参数。例如,可以使用以下参数添加一个 dedup(去重)步骤:

nv-ingest-cli \... \ --task='extract:{...} \ --task='dedup:{"content_type": "image", "filter": true}' \...

该工具可用于使用--doc参数指定的单个文档,或通过提供描述批处理有效载荷的 JSON 格式字典,同时用于一组文档。

提取的所有数据都存储在一个输出目录中,每种文档类型(如图像、文本、结构化文档等)一个子目录。每个摄取的文档都会生成一个 JSON 元数据文件,其中包含提取的内容、源元数据(包括源名称、位置、类型等)和内容元数据。内容元数据包括一般内容元数据和特定类型内容元数据。例如,对于图像,可获取图像类型、任何说明文字、位置、大小等;对于文本,可获取摘要、关键词列表、语言等;对于表格,可获取格式、位置、文本内容、任何说明文字或标题等。

Nvidia Ingest 需要大量来自 Nvidia 和开源项目的支持服务,包括 Redis、yolox、用于开放式遥测的 otel-collector、prometheus、grafana 等。为方便部署,它们被打包成一个 Docker Compose 应用程序。它还需要 CUDA 和 Nvidia Container Toolkit 的支持,以及至少两个 H100 或 A100 GPU 和至少 80GM 内存。

原文链接:

https://www.infoq.com/news/2025/01/nvidia-ingest-document-extract/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐
十多个模型打不过 DeepSeek 一个?奥特曼怒将 GPT 和 o 系列合并,非思维链模型时代终结!
“阿里是当下苹果最好的选择,甚至可能没有之一”
Cursor编写90%代码,3个月速成AI App 吸粉破万,编程门槛真降低了?
2025 年将成 Python 主导 AI 领域的最后一年:Java 强势入侵 Python 腹地

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/2194.html

分享给朋友:

“Nvidia Ingest 让从文档中提取结构化信息更简单” 的相关文章

教培收费管理系统有哪些?

大部分培训机构走上正轨后,随着学员数量不断增长,各种业务和课程报名费用项目逐渐增多,如果还是采用传统的人工收费,就势必会出现算错账或收支对不上的问题。此时,再去查询哪里出了问题是一件非常难的事情。因此,很多培训机构都会使用机构收费系统。那培训机构收费系统有哪些呢?校宇宙是一款适合培训学校内部使用的信...

gitlab常用命令大全

GitLab常用命令大全GitLab是一个基于Git的Web平台,它不仅提供代码托管,还集成了持续集成/持续交付(CI/CD)、代码审查、问题追踪等功能。在日常使用GitLab的过程中,我们常常需要使用一系列命令来管理代码仓库、处理分支和标签等。以下是GitLab常用的Git命令大全,并附上详细解释...

Git分布式系统---Gitlab多人工作流程

前言在上一次推文中,我们已经很清楚的讲解了如何创建本地仓库、提交(push)项目到远程仓库以及从远程仓库clone(克隆)项目到本地的相关操作。大家可以先去看前面的推文(快速掌握Git分布式系统操作)点击查看目前无论你是否步入社会还是在校学生,都会使用Gitlab来进行团队的代码管理。(可以这样说:...

掌握版本控制:Git的那些常见用法与技巧

Git作为现代开发中最常用的版本控制系统,它的普及和高效性使得程序员几乎每天都在与它打交道。无论是个人项目,还是团队协作,Git都能帮助我们追踪代码的修改历史,保证代码版本的管理井井有条,并在多人协作时有效地避免冲突。本文将分享一些常见的Git用法与技巧,帮助你更好地掌握Git的强大功能,并提升你在...

jvm疯狂吃内存,到底是谁的锅?

jvm应该是每一个java程序员都需要掌握的内容,但是在没有遇到问题之前,很多都是基于理论的,唯有实战才能增加个人的知识储备。本文是从一个角度来分析是谁在狂吃内存,希望对你有所帮助。本文是易观技术人员注意到一台开发机上各个微服务进程占用内存很高,随即便展开了调查......ps:本文来源于:http...

Vue2的16种传参通信方式

前言先直入主题列出有哪些传参方式,下面再通过事例一一讲解。props(父传子)$emit与v-on (子传父)EventBus (兄弟传参).sync与update: (父子双向)v-model (父子双向)ref$children与$parent$attrs与$listeners (爷孙双向)pr...