2026 AI 인프라

정부가 마크다운을 선택했다
— AI 에이전트 시대의 공공 데이터 대전환

국가인공지능전략위원회의 마크다운 도입 결정이 왜 단순한 포맷 변경이 아닌 국가 지식 인프라의 역사적 전환인가

마크다운 LLM RAG 공공데이터 AI 에이전트

1 HWP에서 마크다운으로 — 무엇이 바뀌나

2026년 3월 5일, 국가인공지능전략위원회는 산하 분과별 회의 결과를 AI 친화적 텍스트 형식인 마크다운(.md)으로 작성·관리하겠다고 공식 발표했다. 작성된 문서는 공식 누리집을 통해 원문 그대로 대중과 민간 기업에 투명하게 공개된다.

핵심 메시지: "AI 시대에는 정책의 내용 못지않게 정책이 축적되고 관리되는 방식의 혁신이 중요하다." — 임문영 상임부위원장

HWP 포맷이 AI에게 장벽인 이유

한글(HWP)은 '인간의 시각적 경험'과 '인쇄물 조판'을 위해 설계된 포맷이다. 글꼴·자간·레이아웃 등 방대한 편집 메타데이터가 내부에 얽혀 있어, ChatGPT·Claude 등 글로벌 AI 서비스 대부분은 HWP/HWPX를 직접 파싱하지 못한다. 결과적으로 수많은 정책 브리핑과 법안 해설이 AI 학습에 투입되지 못한 채 '데이터 단절' 상태로 방치되어 왔다.

정책 문서 생성 (HWP)
파서 부재
OCR 전처리 필요
AI 활용 불가
정책 문서 생성 (Markdown)
공식 누리집 공개
AI 즉시 활용 가능

2 왜 마크다운인가 — 토큰 80% 절감의 의미

LLM은 텍스트를 토큰(Token) 단위로 연산한다. 토큰은 곧 비용이자 지연 시간(Latency)이다. 마크다운은 같은 내용을 HTML보다 압도적으로 적은 토큰으로 표현한다.

포맷 헤딩 표현 예시 토큰 수 특징
마크다운 ## About Us ~3 토큰 핵심 구조만 포함
HTML <h2 class="section-title" id="about">About Us</h2> 12~15 토큰 렌더링 태그·스크립트가 노이즈로 포함

실제 블로그 포스트 기준으로 원본 HTML은 약 16,180 토큰이지만, 마크다운으로 변환하면 약 3,150 토큰으로 줄어든다. 약 80% 절감이다.

마크다운3,150 토큰
HTML (원본)16,180 토큰

포맷별 AI 친화성 비교

포맷 처리 속도 구조 보존 LLM 직관성
평문 (Plain Text) 최고 ❌ 계층 소실 맥락 구분 불가
HTML 저하 시각 구조만 태그 노이즈로 오버헤드
JSON / XML 중간 ✅ 완벽한 트리 중첩 탐색 부담
마크다운 최고 ✅ 핵심 계층 유지 자연어와 밀접하게 정렬

3 RAG 파이프라인과 환각 억제 메커니즘

RAG(Retrieval-Augmented Generation)는 LLM이 학습하지 않은 최신 데이터를 외부 벡터 DB에서 실시간으로 가져와 답변에 반영하는 아키텍처다. 마크다운은 이 RAG의 핵심 품질인 '청킹(Chunking)'을 혁신적으로 개선한다.

기존 청킹의 문제: 단순히 1,000자 단위로 기계적 분할 → 표의 헤더와 데이터가 분리되거나, 법률 조항의 전제와 예외가 서로 다른 덩어리로 잘려 AI가 잘못된 추론 도출.

마크다운은 #, ##, ### 기호로 명확한 의미론적 경계를 제공한다. 각 청크가 문서 전체 계층에서 어디에 위치하는지 메타데이터를 유지하기 때문에, 에이전트가 정보를 추출할 때 논리적 흐름이 보존된다.

마크다운 문서
의미 단위 청킹 (#,##,###)
벡터 DB 저장
정밀 검색
환각 억제

또한 굵은 글씨(**), 코드 블록(```) 등의 마크다운 기호는 AI 모델에게 작성자의 강조 의도를 전달하여 모호성을 줄이고, 정밀한 출처 인용(Citation)을 가능케 한다.

4 금융·ESG·민간 생태계 파급효과

정부 공공 문서의 마크다운화는 민간 AI 파이프라인이 고품질 한국어 데이터에 즉시 연결(Plug-and-play)할 수 있게 해준다. 그 파급효과는 특히 금융과 ESG 영역에서 두드러진다.

ESG 공시
탄소 배출 데이터 실시간 분석
2028년부터 KOSPI 상장사 ESG 보고 의무화. 마크다운 표 포맷의 탄소 배출 데이터는 글로벌 평가 기관 AI가 즉각 수집·벤치마킹 가능해진다.
기업 지배구조
주주총회 투표 결과 투명 공시
2026년 3월부터 상장사는 모든 안건의 찬반·기권 비율을 당일 공시 의무화. 마크다운 테이블로 즉시 AML 이상 탐지 AI에 연결된다.
Compliance
규제 준수 자동 교차검증
식약처 기준 개정, 자본시장법 개정안 등이 마크다운으로 공개되면 기업 AI 에이전트가 자사 파이프라인과 신규 규제 충돌 여부를 자동 경보한다.
개발 생태계
AI 코딩 도구의 표준 컨텍스트
Claude Code, Cursor 등 AI 코딩 도구는 마크다운 파일을 컨텍스트로 선호한다. Notion(사용자 1억 돌파), Obsidian 등 지식관리 도구도 마크다운을 기본으로 채택했다.

5 SEO에서 AEO로 — 웹 아키텍처의 진화

오늘날 웹사이트 방문 31회 중 1회는 GPTBot·ClaudeBot 같은 AI 크롤러 봇이 발생시킨다. 이에 대응해 차세대 웹은 '이중 뷰(Dual-view)' 구조로 진화하고 있다.

🤖
AI 봇 감지 → 마크다운 반환

Next.js 미들웨어에서 User-Agent를 분석해 AI 크롤러에게는 DOM을 벗겨낸 순수 마크다운(.md)만을 응답으로 전달한다.

👤
일반 사용자 → React/HTML 뷰 제공

동일한 콘텐츠를 인간에게는 시각적으로 최적화된 HTML로, AI에게는 파싱 최적화된 마크다운으로 이중 서빙한다.

🏛️
정부 누리집 + 마크다운 라우팅

정부 공식 사이트에서 정책 문서가 마크다운으로 무한 공급되면, 한국의 법률·정책 데이터는 전 세계 AI 모델 가중치에 가장 우선적으로 반영되는 지적 우위를 확보한다.

💡
2026년 파싱 기술 동향 (LlamaParse, Unstructured 등)

VLM 기반 차세대 파싱 API들이 PDF·HWP를 즉시 마크다운으로 변환한다. 정부의 원천 마크다운화는 민간의 이 변환 비용을 사회 전체에서 삭감해주는 인프라 보조금이다.

⚠️ AI 모델 벤치마크(MMLU, HumanEval 등)는 이미 '사망' 선고를 받았다. 2026년의 진짜 경쟁력은 복잡한 현실 데이터를 얼마나 잘 처리하느냐다. 구조화된 입력 데이터의 품질이 모델 성능의 병목이 되고 있다.

📌 핵심 정리

  • 국가AI위원회가 공공 문서를 마크다운으로 작성·공개하기로 공식 결정했다 (2026.03.05)
  • 마크다운은 HTML 대비 토큰을 약 80% 절감 — AI 연산 비용과 지연 시간이 동시에 줄어든다
  • 의미론적 청킹 덕분에 RAG 파이프라인 정확도와 환각 억제 성능이 동반 향상된다
  • ESG 공시·AML 이상 탐지·Compliance AI까지 공공 데이터 품질이 민간 AI 생태계 전반에 직결된다
  • 이것은 행정 서식의 변경이 아니라, 국가 지식 자본을 AI 네이티브 인프라로 재설계하는 대전환이다

마크다운으로 무결하게 구조화된 공공 데이터 세트는 오류와 환각을 교정하는 나침반이 된다. 정부의 이번 결정은 국가 지식 자본이 기계 중심의 AI 생태계로 원활하게 흘러갈 수 있도록 초고속 정보 고속도로를 까는 역사적 아키텍처 대전환으로 평가받을 것이다.

+ Recent posts