在构建2亿全球专利数据库的过程中,数据清洗无疑是最为关键且耗时最长的环节之一。原始专利数据来源于多个不同的数据源,包括中国国家知识产权局(CNIPA)6200万件、美国专利商标局(USPTO)2065万件、日本特许厅(JPO)2830万件、韩国知产局(KIPO)788万件、欧洲专利局(EPO)885万件以及世界知识产权组织(WIPO)590万件,及其其他国家/地区共计约2.05亿条专利记录。由于各数据源的数据格式、编码标准、元数据规范存在显著差异,数据清洗工作的复杂程度远超我们的预期。本文将详细介绍整个数据清洗流程,包括我们遇到的具体问题、采用的解决方案以及积累的经验教训。
1.1 数据源分析与格式统一
全球专利数据的主要来源及数据量如下:CNIPA(中国)约6200万件专利数据,主要包括发明专利、实用新型专利和外观设计专利;USPTO(美国)约2065万件专利数据,每年的数据量约为30-40万条;JPO(日本)约2830万件专利数据,Patent式提供的特格式专利文献;KIPO(韩国)约788万件专利数据;EPO(欧洲)约885万件专利数据;WIPO(世界知识产权组织)约590万件PCT及其其他国家/地区共计约2.05亿条专利数据。这些数据源在字段命名、数据类型、日期格式、申请人信息表达方式等方面都存在差异。
为了统一这些数据,我们首先建立了一个标准化的数据模型。这个模型包含了专利的核心字段:专利号(支持多国格式)、申请日期、公开日期、授权日期、申请人(发明人)信息、分类号(IPC和CPC分类)、标题、摘要、权利要求书、主附图信息、引用关系等。我们为每个字段定义了标准的数据类型和取值范围,例如日期字段统一采用ISO 8601标准(YYYY-MM-DD格式),申请人名称进行标准化处理以处理重名和分支机构的问题。
1.2 文本数据清洗流程
专利数据的文本字段包括标题、摘要、权利要求书和详细说明等。这些文本数据存在以下常见问题:字符编码不一致(UTF-8、GBK、Latin-1混用)、特殊字符和HTML标签残留、OCR识别错误(尤其是早期专利扫描件)、语言混用(同一字段可能包含多语言内容)等。
我们的文本清洗流程采用多级处理机制。第一级是编码标准化,使用chardet库自动检测原始编码并将所有文本转换为UTF-8格式。第二级是特殊字符处理,移除控制字符、不可打印字符以及多余的空白字符,同时保留有意义的特殊符号(如化学式中的上下标标记)。第三级是HTML标签和格式标记清除,使用BeautifulSoup库解析并提取纯净文本。第四级是语言检测和分离,使用langdetect库识别文本语言,对于多语言字段进行切分和标记。
关键技术点:在处理权利要求书时,需要特别注意编号格式的保留。权利要求书采用分层编号(如1、1.1、1.1.1、a、b等),这些编号关系着权利要求的保护范围和引用关系。我们开发了专门的编号解析器来识别和保留这些结构信息。
1.3 日期字段处理
日期字段的处理是数据清洗中的难点之一。不同国家和地区的日期格式差异很大:美国采用MM/DD/YYYY格式,欧洲多采用DD/MM/YYYY或DD.MM.YYYY格式,而日本则使用YYYY年MM月DD日的格式。此外,还存在日期不完整的情况,例如只有年份或年月信息,以及日期跨越世纪边界时可能出现的歧义问题(如1803年可能被错误识别为2003年)。
我们的解决方案是建立日期解析的规则引擎,针对不同来源的数据应用不同的解析规则。对于每条专利记录,我们尝试多个日期字段的组合来确认最准确的日期信息。以美国专利为例,我们通常优先使用申请日期(Filing Date),其次是公开日期(Publication Date),最后是授权日期(Issue Date)。对于日期不完整的情况,我们采用推算和缺省值填充的策略,并在元数据中标记日期的完整度等级。
1.4 申请人信息的标准化
申请人信息的标准化是另一个技术难点。同一个申请人在不同数据源中可能有多种表示形式,例如"苹果公司"、"Apple Inc."、"APPLE INC"、"Apple Computer, Inc."等。这些变体可能是由于拼写差异、翻译差异、公司更名或分支机构表示方式不同造成的。
我们采用了基于规则和机器学习相结合的实体识别与消解方案。规则层面,我们定义了公司后缀词表(如Inc.、Ltd.、GmbH、有限公司等)、常见错误模式库以及标准化替换规则。机器学习层面,我们使用BERT模型训练了一个申请人名称规范化模型,将所有变体映射到统一的标准名称。对于无法确定的情况,我们保留原始名称并标记为"待审核",后续通过人工审核进行确认。
1.5 引用关系的提取与补全
专利引用关系是构建专利网络分析的基础。然而,引用数据的完整性和准确性在不同数据源间差异很大。USPTO的引用数据相对完整,包括专利引用(US Patent Citations)和小艇引用(NPL Citations);而其他数据源的引用信息往往不完整或缺失。
我们的策略是先整合各数据源的引用信息,然后通过专利号匹配进行跨库补全。对于某些缺失公开号只有旧式专利号的情况,我们开发了专利号转换工具来处理美国专利号的不同格式(Utility Patent、Design Patent、Reissue Patent等)。此外,我们还通过文本相似度匹配来发现未被明确引用的"隐性引用关系",这一步使用了BERT语义相似度模型。
1.6 数据质量验证与监控
数据清洗完成后,我们建立了完整的数据质量验证体系。验证维度包括完整性(必填字段是否缺失)、准确性(字段值是否在合理范围内)、一致性(同一实体的不同记录是否一致)、时效性(数据更新是否及时)等。
我们开发了数据质量仪表板,实时展示各项质量指标。对于关键字段,我们设置了自动化告警机制,当质量指标低于阈值时触发邮件和即时消息通知。最终,经过多轮清洗和验证,我们从原始的约2.3亿条记录中筛选出约2亿条有效专利记录,数据质量达到了预设的98%以上的准确率目标。
经验教训:数据清洗不是一次性工作,而是持续优化的过程。随着对数据理解的深入,我们需要不断调整清洗规则。建议在项目初期就建立完善的日志记录和版本管理机制,便于追溯问题和回滚操作。

<<返回首页
