一、数据清洗详细过程 | 2亿全球专利数据库检索系统搭建过程

发布日期：2026年4月10日 | 分类：数据工程 | 阅读量：1,892

在构建2亿全球专利数据库的过程中，数据清洗无疑是最为关键且耗时最长的环节之一。原始专利数据来源于多个不同的数据源，包括中国国家知识产权局（CNIPA）6200万件、美国专利商标局（USPTO）2065万件、日本特许厅（JPO）2830万件、韩国知产局（KIPO）788万件、欧洲专利局（EPO）885万件以及世界知识产权组织（WIPO）590万件，及其其他国家/地区共计约2.05亿条专利记录。由于各数据源的数据格式、编码标准、元数据规范存在显著差异，数据清洗工作的复杂程度远超我们的预期。本文将详细介绍整个数据清洗流程，包括我们遇到的具体问题、采用的解决方案以及积累的经验教训。

1.1 数据源分析与格式统一

全球专利数据的主要来源及数据量如下：CNIPA（中国）约6200万件专利数据，主要包括发明专利、实用新型专利和外观设计专利；USPTO（美国）约2065万件专利数据，每年的数据量约为30-40万条；JPO（日本）约2830万件专利数据，Patent式提供的特格式专利文献；KIPO（韩国）约788万件专利数据；EPO（欧洲）约885万件专利数据；WIPO（世界知识产权组织）约590万件PCT及其其他国家/地区共计约2.05亿条专利数据。这些数据源在字段命名、数据类型、日期格式、申请人信息表达方式等方面都存在差异。

为了统一这些数据，我们首先建立了一个标准化的数据模型。这个模型包含了专利的核心字段：专利号（支持多国格式）、申请日期、公开日期、授权日期、申请人（发明人）信息、分类号（IPC和CPC分类）、标题、摘要、权利要求书、主附图信息、引用关系等。我们为每个字段定义了标准的数据类型和取值范围，例如日期字段统一采用ISO 8601标准（YYYY-MM-DD格式），申请人名称进行标准化处理以处理重名和分支机构的问题。

1.2 文本数据清洗流程

专利数据的文本字段包括标题、摘要、权利要求书和详细说明等。这些文本数据存在以下常见问题：字符编码不一致（UTF-8、GBK、Latin-1混用）、特殊字符和HTML标签残留、OCR识别错误（尤其是早期专利扫描件）、语言混用（同一字段可能包含多语言内容）等。

我们的文本清洗流程采用多级处理机制。第一级是编码标准化，使用chardet库自动检测原始编码并将所有文本转换为UTF-8格式。第二级是特殊字符处理，移除控制字符、不可打印字符以及多余的空白字符，同时保留有意义的特殊符号（如化学式中的上下标标记）。第三级是HTML标签和格式标记清除，使用BeautifulSoup库解析并提取纯净文本。第四级是语言检测和分离，使用langdetect库识别文本语言，对于多语言字段进行切分和标记。

关键技术点：在处理权利要求书时，需要特别注意编号格式的保留。权利要求书采用分层编号（如1、1.1、1.1.1、a、b等），这些编号关系着权利要求的保护范围和引用关系。我们开发了专门的编号解析器来识别和保留这些结构信息。

1.3 日期字段处理

日期字段的处理是数据清洗中的难点之一。不同国家和地区的日期格式差异很大：美国采用MM/DD/YYYY格式，欧洲多采用DD/MM/YYYY或DD.MM.YYYY格式，而日本则使用YYYY年MM月DD日的格式。此外，还存在日期不完整的情况，例如只有年份或年月信息，以及日期跨越世纪边界时可能出现的歧义问题（如1803年可能被错误识别为2003年）。

我们的解决方案是建立日期解析的规则引擎，针对不同来源的数据应用不同的解析规则。对于每条专利记录，我们尝试多个日期字段的组合来确认最准确的日期信息。以美国专利为例，我们通常优先使用申请日期（Filing Date），其次是公开日期（Publication Date），最后是授权日期（Issue Date）。对于日期不完整的情况，我们采用推算和缺省值填充的策略，并在元数据中标记日期的完整度等级。

1.4 申请人信息的标准化

申请人信息的标准化是另一个技术难点。同一个申请人在不同数据源中可能有多种表示形式，例如"苹果公司"、"Apple Inc."、"APPLE INC"、"Apple Computer, Inc."等。这些变体可能是由于拼写差异、翻译差异、公司更名或分支机构表示方式不同造成的。

我们采用了基于规则和机器学习相结合的实体识别与消解方案。规则层面，我们定义了公司后缀词表（如Inc.、Ltd.、GmbH、有限公司等）、常见错误模式库以及标准化替换规则。机器学习层面，我们使用BERT模型训练了一个申请人名称规范化模型，将所有变体映射到统一的标准名称。对于无法确定的情况，我们保留原始名称并标记为"待审核"，后续通过人工审核进行确认。

1.5 引用关系的提取与补全

专利引用关系是构建专利网络分析的基础。然而，引用数据的完整性和准确性在不同数据源间差异很大。USPTO的引用数据相对完整，包括专利引用（US Patent Citations）和小艇引用（NPL Citations）；而其他数据源的引用信息往往不完整或缺失。

我们的策略是先整合各数据源的引用信息，然后通过专利号匹配进行跨库补全。对于某些缺失公开号只有旧式专利号的情况，我们开发了专利号转换工具来处理美国专利号的不同格式（Utility Patent、Design Patent、Reissue Patent等）。此外，我们还通过文本相似度匹配来发现未被明确引用的"隐性引用关系"，这一步使用了BERT语义相似度模型。

1.6 数据质量验证与监控

数据清洗完成后，我们建立了完整的数据质量验证体系。验证维度包括完整性（必填字段是否缺失）、准确性（字段值是否在合理范围内）、一致性（同一实体的不同记录是否一致）、时效性（数据更新是否及时）等。

我们开发了数据质量仪表板，实时展示各项质量指标。对于关键字段，我们设置了自动化告警机制，当质量指标低于阈值时触发邮件和即时消息通知。最终，经过多轮清洗和验证，我们从原始的约2.3亿条记录中筛选出约2亿条有效专利记录，数据质量达到了预设的98%以上的准确率目标。

经验教训：数据清洗不是一次性工作，而是持续优化的过程。随着对数据理解的深入，我们需要不断调整清洗规则。建议在项目初期就建立完善的日志记录和版本管理机制，便于追溯问题和回滚操作。

<<返回首页