结构化数据,而非词法分析,才是未来…

结构化数据,而非词法分析,才是未来...

几个月来,怀疑者们一直认为,大型语言模型(LLMs)如 ChatGPT 并不真正理解结构化数据格式,如 JSON-LD Schema Markup。一个常见的批评是,LLMs 将所有内容处理为标记化的文本,将结构化数据简化为“统计汤”而不是将其视为一个明确定义的知识层。

虽然早期的 LLMs 由于标记化限制而难以处理结构化数据,但 2025 年的人工智能进步提高了 LLMs 处理结构化数据与标记化的能力。

现代 LLMs 日益能够利用结构化数据源,如 JSON-LD Schema Markup,特别是当与推理模型、检索式架构和知识图谱配对时。

让我们分析一下为什么标记化论点已经过时,以及为什么结构化数据,而不是检索增强生成(RAG),是未来人工智能性能的关键。

什么是标记化?

标记化是大型语言模型(LLMs)将文本分解为小单位称为标记的过程。这些标记可以是单词、子单词,甚至是单个字符,这取决于模型的架构。例如,“schema”这个词可能会被分解为多个标记,如“sche” + “ma”,而像“data”这样的常用词可能会保留为单个标记。

标记化允许 LLMs 通过将文本转换为数值表示来高效地处理文本,这些数值表示随后用于模式识别和预测。然而,这种方法在处理像 JSON-LD Schema Markup 这样的复杂格式时会导致结构丢失。

标记化问题逐渐变得不再重要

LLMs 的进步解决了早期子单词标记化的许多局限性。虽然标记化仍然是 LLM 架构的核心方面,但新的模型现在可以调用外部工具,集成逻辑推理组件,并使用自我验证机制。这些改进增强了它们处理需要字符级精度的任务的能力,减少了错误并提高了可靠性。

  • 多模态和混合人工智能:新的 LLMs 可以调用外部工具(如 Python)或使用字符级处理当需要时。
  • 符号推理:一些模型集成了逻辑推理组件,允许对输入进行更结构化的解释。
  • 自我验证:链式推理和自我检查机制使模型能够检测和纠正任务中需要精确细节的自身错误。

简而言之,LLMs 不能处理单词内部的单个字符——以相同的方式对待 Schema Markup 的论点——在 2025 年基本上已经无关紧要。标记化的怪癖可能仍然存在,但它们不再是人工智能能力的有意义的限制。

LLMs不需要“猜测”当它们有结构化数据

真正的问题不是标记化——而是幻觉。当 LLM 从报告中提取财务数据时,它可能根据其训练数据近似右格式,但不能保证准确性。

解决方案? 结构化数据集成

Schema Markup 不是“统计汤” —— 它是数据

过时的 LLM 观点中一个至关重要的误解是将 JSON-LD Schema Markup 视为只是另一种文本类型。

在现实中,Schema.org 是结构化数据——一种预定义的、机器可读的格式,搜索引擎、知识图谱和人工智能系统可以使用该格式进行推理。

超越 RAG:结构化数据是答案

超越基于文本的 RAG 检索,结构化数据的集成使 LLMs 能够以更有意义的方式与信息交互。这一方法使模型能够检索和推理正式的数据表示,导致更深入的理解和更准确的输出。

  • 知识图谱和 Schema.org:LLMs 不是将 JSON-LD 视为非结构化文本,而是从结构化知识库中检索 schema 数据(例如 Google 知识图谱、Wikidata、YAGO 或内部图数据库)。
  • 本体驱动理解:通过将 LLMs 与本体支持的结构化数据对齐,我们消除了歧义并强制精度。
  • 混合推理系统:最好的 AI 模型将结构化符号知识与统计模型相结合,减少了对概率猜测的需求。

使用结构化数据,LLMs 不需要幻觉 —— 它们检索和推理真实世界的事实和定义的关系。

LLMs的未来是数据质量,而不是标记化

LLMs 中最大的性能改进日益受到高质量结构化数据集成的驱动,例如知识图谱,这增强了精度、推理和检索能力。虽然标记化和 NLP 技术的进步改善了语言理解,但结构化数据为更可靠、上下文感知和可扩展的人工智能应用程序提供了基础。

更前瞻性的观点

而不是说
“LLMs 可以(有点)生成 schema 但不理解它。”

2025 年的真实观点是
“LLMs 集成了结构化数据源不仅生成 schema —— 它们将其用作实际推理的基础。”

最后的思考:人工智能的未来是结构化知识

关于标记化缺陷的辩论日益过时。真正重要的是 LLMs 如何使用结构化数据来提高准确性、减少幻觉和增强决策能力。

对于从事 SEO、内容策略和人工智能驱动洞察的专业人士,结论是明确的:

  • Schema Markup 不仅是“文本” —— 它是人工智能可以用于更深入理解的结构化数据。
  • 未来的人工智能系统将超越 RAG 并依赖知识图谱来实现准确性。
  • 标记化的怪癖相比于结构化数据集成的好处而言是微不足道的。

我们不应该担心 LLM 在单词中可以数出多少“R”,而应该专注于我们的结构化数据如何能够支持人工智能驱动的洞察。未来的 LLM 不在于其统计技巧 —— 而在于其推理结构化知识的能力。

下一步是什么?

对于使用 Schema.org(如 Schema App)的公司和团队,下一步是将人工智能策略与结构化数据的最佳实践保持一致。不管是 SEO、内容自动化还是基于实体的搜索优化,真正的收益都会来自于利用结构化知识 —— 而不仅仅是基于文本的检索。

你准备好构建真正理解你的数据的人工智能吗?请联系我们以了解如何做到这一点。

你认为这篇文章怎么样?对你有帮助吗?
发表回复

下一步阅读什么