![KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트 하고 있다.[출처: KT]](https://www.casenews.co.kr/news/photo/202507/18269_39905_5023.jpg)
KT는 AI 개발자 플랫폼 허깅페이스(HuggingFace)를 통해 ‘믿:음 2.0’ 공개할 예정이라고 3일 밝혔다.
KT는 2023년 믿:음 1.0 버전의 스탠다드, 프리미엄 2종을 출시한 이래 KT AICC, 지니TV등 다양한 서비스에 활용해 왔다. KT 관계자는 ‘믿:음’은 사전 학습부터 자체적으로 만든 한국적 독자 AI 모델이다. 고품질 한국어 데이터를 준비하는 과정에서 모든 저작권을 확보해 신뢰성을 높였다고 강조했다.
115억 파라미터 규모의 ‘믿:음 2.0 베이스’와 23억 파라미터 규모의 ‘믿:음 2.0 미니’ 2종 모두에 ‘한국적 AI’라는 철학을 담았다.
믿:음 2.0 베이스는 범용 서비스에 적합한 모델로 한국 특화 지식과 문서 기반의 질의응답에 특화됐다. 믿:음 2.0 미니는 베이스 모델에서 증류한 지식을 학습한 소형 모델이며 두 모델 모두 한국어와 영어를 지원한다.
KT와 고려대학교가 공동 개발한 한국어 AI 역량 평가 지표인 ‘코-소버린(Ko-Sovereign)’ 벤치마크에서 유사 규모의 국내 기성 모델을 비롯해 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다. 코-소버린은 한국적 AI성능을 종합적으로 평가할 수 있도록 언어, 문화, 사회, 역사 등의 한국적 맥락을 정밀하게 반영한 전문가 수준의 문항으로 구성됐다.
![KT 기술혁신부문 연구원들이 믿:음 2.0을 테스트 하고 있다.[출처: KT]](https://www.casenews.co.kr/news/photo/202507/18269_39906_518.jpg)
이와 함께 한국과 관련한 전문 지식의 이해도를 측정하는 대표적 벤치마크 ‘KMMLU’와 한국어 언어모델 평가 지표인 ‘HAERAE’에서도 믿:음은 국내외 주요 오픈소스 모델보다 더 우수한 성능을 기록했다고 설명했다.
KT는 국내 교육용 도서와 문학 작품 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터를 확보해 믿:음 2.0 학습에 활용했다. 저작권 이슈가 있는 데이터는 모두 제거하는 등 고품질 데이터를 선별해 가공했다.
한국어의 구조와 언어학적 특성을 반영한 토크나이저(Tokenizer)를 자체 개발하고, 필터링으로 줄어든 데이터 규모는 데이터 합성 방법론을 적용해 보완했다. AI의 윤리성 및 신뢰성을 높이기 위해 전문가들과 함께 만든 ‘AI 영향 평가 체계’도 적용했다.
KT는 믿:음 2.0을 공개를 계기로 국내 AI 생태계에 ‘한국적 AI’ 확산을 선도한다는 목표다. 마이크로소프트와의 협업으로 GPT-4에 한국적 사고를 추가 학습시키는 방식의 모델 또한 순차 공개할 예정이다.
신동훈 KT Gen AI Lab장(CAIO) 상무는 “믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델”이라며 “KT가 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하고 글로벌 경쟁력을 갖추는 중요한 발판이 될 것”이라고 말했다.