정부가 마크다운을 선택했다
— AI 에이전트 시대의 공공 데이터 대전환
국가인공지능전략위원회의 마크다운 도입 결정이 왜 단순한 포맷 변경이 아닌 국가 지식 인프라의 역사적 전환인가
1 HWP에서 마크다운으로 — 무엇이 바뀌나
2026년 3월 5일, 국가인공지능전략위원회는 산하 분과별 회의 결과를 AI 친화적 텍스트 형식인 마크다운(.md)으로 작성·관리하겠다고 공식 발표했다. 작성된 문서는 공식 누리집을 통해 원문 그대로 대중과 민간 기업에 투명하게 공개된다.
HWP 포맷이 AI에게 장벽인 이유
한글(HWP)은 '인간의 시각적 경험'과 '인쇄물 조판'을 위해 설계된 포맷이다. 글꼴·자간·레이아웃 등 방대한 편집 메타데이터가 내부에 얽혀 있어, ChatGPT·Claude 등 글로벌 AI 서비스 대부분은 HWP/HWPX를 직접 파싱하지 못한다. 결과적으로 수많은 정책 브리핑과 법안 해설이 AI 학습에 투입되지 못한 채 '데이터 단절' 상태로 방치되어 왔다.
2 왜 마크다운인가 — 토큰 80% 절감의 의미
LLM은 텍스트를 토큰(Token) 단위로 연산한다. 토큰은 곧 비용이자 지연 시간(Latency)이다. 마크다운은 같은 내용을 HTML보다 압도적으로 적은 토큰으로 표현한다.
| 포맷 | 헤딩 표현 예시 | 토큰 수 | 특징 |
|---|---|---|---|
| 마크다운 | ## About Us |
~3 토큰 | 핵심 구조만 포함 |
| HTML | <h2 class="section-title" id="about">About Us</h2> |
12~15 토큰 | 렌더링 태그·스크립트가 노이즈로 포함 |
실제 블로그 포스트 기준으로 원본 HTML은 약 16,180 토큰이지만, 마크다운으로 변환하면 약 3,150 토큰으로 줄어든다. 약 80% 절감이다.
포맷별 AI 친화성 비교
| 포맷 | 처리 속도 | 구조 보존 | LLM 직관성 |
|---|---|---|---|
| 평문 (Plain Text) | 최고 | ❌ 계층 소실 | 맥락 구분 불가 |
| HTML | 저하 | 시각 구조만 | 태그 노이즈로 오버헤드 |
| JSON / XML | 중간 | ✅ 완벽한 트리 | 중첩 탐색 부담 |
| 마크다운 | 최고 | ✅ 핵심 계층 유지 | 자연어와 밀접하게 정렬 |
3 RAG 파이프라인과 환각 억제 메커니즘
RAG(Retrieval-Augmented Generation)는 LLM이 학습하지 않은 최신 데이터를 외부 벡터 DB에서 실시간으로 가져와 답변에 반영하는 아키텍처다. 마크다운은 이 RAG의 핵심 품질인 '청킹(Chunking)'을 혁신적으로 개선한다.
마크다운은 #, ##, ### 기호로 명확한 의미론적 경계를 제공한다. 각 청크가 문서 전체 계층에서 어디에 위치하는지 메타데이터를 유지하기 때문에, 에이전트가 정보를 추출할 때 논리적 흐름이 보존된다.
또한 굵은 글씨(**), 코드 블록(```) 등의 마크다운 기호는 AI 모델에게 작성자의 강조 의도를 전달하여 모호성을 줄이고, 정밀한 출처 인용(Citation)을 가능케 한다.
4 금융·ESG·민간 생태계 파급효과
정부 공공 문서의 마크다운화는 민간 AI 파이프라인이 고품질 한국어 데이터에 즉시 연결(Plug-and-play)할 수 있게 해준다. 그 파급효과는 특히 금융과 ESG 영역에서 두드러진다.
5 SEO에서 AEO로 — 웹 아키텍처의 진화
오늘날 웹사이트 방문 31회 중 1회는 GPTBot·ClaudeBot 같은 AI 크롤러 봇이 발생시킨다. 이에 대응해 차세대 웹은 '이중 뷰(Dual-view)' 구조로 진화하고 있다.
Next.js 미들웨어에서 User-Agent를 분석해 AI 크롤러에게는 DOM을 벗겨낸 순수 마크다운(.md)만을 응답으로 전달한다.
동일한 콘텐츠를 인간에게는 시각적으로 최적화된 HTML로, AI에게는 파싱 최적화된 마크다운으로 이중 서빙한다.
정부 공식 사이트에서 정책 문서가 마크다운으로 무한 공급되면, 한국의 법률·정책 데이터는 전 세계 AI 모델 가중치에 가장 우선적으로 반영되는 지적 우위를 확보한다.
VLM 기반 차세대 파싱 API들이 PDF·HWP를 즉시 마크다운으로 변환한다. 정부의 원천 마크다운화는 민간의 이 변환 비용을 사회 전체에서 삭감해주는 인프라 보조금이다.
📌 핵심 정리
- 국가AI위원회가 공공 문서를 마크다운으로 작성·공개하기로 공식 결정했다 (2026.03.05)
- 마크다운은 HTML 대비 토큰을 약 80% 절감 — AI 연산 비용과 지연 시간이 동시에 줄어든다
- 의미론적 청킹 덕분에 RAG 파이프라인 정확도와 환각 억제 성능이 동반 향상된다
- ESG 공시·AML 이상 탐지·Compliance AI까지 공공 데이터 품질이 민간 AI 생태계 전반에 직결된다
- 이것은 행정 서식의 변경이 아니라, 국가 지식 자본을 AI 네이티브 인프라로 재설계하는 대전환이다
마크다운으로 무결하게 구조화된 공공 데이터 세트는 오류와 환각을 교정하는 나침반이 된다. 정부의 이번 결정은 국가 지식 자본이 기계 중심의 AI 생태계로 원활하게 흘러갈 수 있도록 초고속 정보 고속도로를 까는 역사적 아키텍처 대전환으로 평가받을 것이다.
'🤖 AI' 카테고리의 다른 글
| [AI] 바이브 코딩으로 간단히 수익 창출을 하기 위한 방법, `앱인토스` (0) | 2026.04.23 |
|---|---|
| [AI] Gemini에 추가된 Notebook LM에 대해 알아보자. (0) | 2026.04.20 |
| [AI] Google Gemma4란 무엇인가? (0) | 2026.04.13 |
| [AI] 2026년 Codex Windows 출시, 간략 소개 및 사용법 (0) | 2026.03.08 |
| 2026년 비 개발 직군이 알아야 할 에이전트 AI 기초 개념 (1) (0) | 2026.02.26 |