“AI 생태계 확장 가능”…한컴, PDF 추출 핵심 기술 공개

[ 더리브스 ] / 기사승인 : 2025-09-17 11:08:21 기사원문
  • -
  • +
  • 인쇄

한글과컴퓨터. [그래픽=황민우 기자]
한글과컴퓨터. [그래픽=황민우 기자]




한글과컴퓨터가 AI(인공 지능) 학습을 막아온 문제들을 해소할 수 있는 핵심 기술 기반 마련에 성공하면서 오픈소스를 공개했다.



한컴은 PDF(Portable Document Format) 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다고 17일 밝혔다. PDF 문서 데이터 처리 병목 현상은 AI 학습 및 활용 과정에서 고질적인 난제로 지적돼 왔다.



이번에 공개된 ‘오픈데이터로더 PDF’는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다. 한컴은 오픈데이터로더 PDF를 통해 글로벌 AI 생태계 확산을 위한 기술적 기반을 마련했다.



PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 ‘데이터 감옥’이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다. 이 같은 문제를 해결하기 위해 한컴은 지난 7월 PDF 기술 전문 기업 듀얼랩(Dual Lab)과 업무협약(MOU)을 체결했다. 양사의 목표는 오픈소스 기반의 PDF데이터로더의 공동 개발 및 AI 생태계 확장이다.



한컴은 양사가 공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트·표·이미지·레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용이 가능한 정형화된 데이터(JSON, Markdown, HTML)로 변환한다고 설명했다.



공식 홈페이지에 공개된 벤치마크 테스트 결과에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85% 높은 수치를 기록하기도 했다.



또한 네트워크 연결 없이 오프라인으로 작동하기 때문에 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 데이터 유출이나 외부 업로드로 인한 정보 노출 위험을 원천적으로 차단한다. 한컴은 이와 같은 오프라인 기반 보안성은 기업과 기관 단위 활용에서 기술적 장점으로 작용할 전망이라고 기대하고 있다.



오픈데이터로더 PDF는 학습 데이터 안전성(AI Safety) 문제에 대응하기 위한 전략도 담았다. 한컴은 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.



한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고 AI 생태계 전반으로의 확산 및 기술 고도화를 추진 중이다. 이를 위해 챗GPT·제미나이·랭체인 등 주요 AI 프레임 워크와의 연동과 호환성을 강화하고 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와의 협력도 이어갈 계획이다.



한컴 정지환 최고기술책임자(CTO)는 “AI 트랜스포메이션(AX) 시대에 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며 “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 강조했다.



박달님 기자 pmoon55@tleaves.co.kr

  • 글자크기
  • +
  • -
  • 인쇄

포토 뉴스야

랭킹 뉴스
많이 본 뉴스