지난 9일에 진행된 '한국어 방언 AI 데이터 구축 사업(한국정보화진흥원) 컨소시엄 워크숍 ⓒ솔트룩스
지난 9일에 진행된 '한국어 방언 AI 데이터 구축 사업(한국정보화진흥원) 컨소시엄 워크숍 ⓒ솔트룩스

국내 인공지능 SW기업 최초로 코스닥에 상장한 솔트룩스가 ‘인공지능(AI) 학습용 데이터 구축’ 및 ‘AI 바우처’ 사업 협약을 완료하여 총 341억원 규모의 디지털 뉴딜 사업 주관 및 참여기업으로 선정됐다고 22일 밝혔다. 이 중 솔트룩스 사업비는 총 83억원이다. 

정부가 지난 7월 발표한 디지털 뉴딜의 10대 대표과제 중 하나인 ‘데이터 댐’은 디지털 전환을 선도하기 위해 14만여 개 공공데이터를 민간이 활용할 수 있도록 기반을 마련하기 위한 사업이다. 데이터 댐은 △인공지능(AI) 학습용 데이터 구축 △AI 바우처 △AI데이터 가공 바우처 사업 △AI 융합 프로젝트(AI+X) △클라우드 플래그십 프로젝트 △클라우드 이용 바우처 사업 △빅데이터 플랫폼 및 센터 구축의 7개 사업으로 구성되어 있다.

솔트룩스는 자회사와 함께 데이터 댐 사업 중 과학기술정보통신부(장관 최기영)와 한국정보화진흥원(원장 문용식, NIA)에서 주최·주관하는 ‘인공지능(AI) 학습용 데이터 구축’ 사업 중 6개 분야에 선정됐다. 주제지정 과제는 △자연어 분야 ‘한국어 방언 AI 데이터’(주관, 사업규모 118억원) △자연어 분야 ‘한국어-영어 번역 말뭉치 AI 데이터’(참여, 사업규모 25억원) △자연어 분야 ‘한국어-중국어/일본어 번역 말뭉치 AI 데이터’(참여, 사업규모 71억원) △미디어 분야 ‘영상 콘텐츠 이해 AI 데이터’(참여, 사업규모 69억원)가 있다. 자유 과제는 △지역 분야 ‘폐암 예후 예측을 위한 AI 데이터’(참여, 사업규모 22억원) 등이 있다.

특히 이 중 가장 큰 규모의 사업인 ‘한국어 방언 AI 데이터’는 솔트룩스가 15년 이상의 초대규모 학습용 데이터 구축 전문성을 바탕으로 주관사를 맡고 지역언어, 데이터 구축, 품질 검수 등 부문별 전문성을 보유한 16개 기관이 함께 참여하는 컨소시엄으로 사업을 진행한다. 솔트룩스는 이미 국립국어원 음성 구어 수집 및 원시 말뭉치, 일상대화 말뭉치 구축 사업 등을 수행 중이다.

솔트룩스 관계자는 “솔트룩스는 아시아 최대 규모의 지식베이스 등 초대규모 AI 데이터를 꾸준히 구축해 왔으며, 엑소브레인 등 200억 규모 이상의 대형 AI 사업에 대한 수행 경험과 노하우를 보유하고 있다”며, “인공지능 개발에 필수적인 양질의 학습 데이터 구축이 핵심인 만큼 4단계 품질 관리 공정 등 솔트룩스가 보유한 역량을 총동원하여 99.9% 고품질 AI 데이터를 구축하는 데 최선을 다하겠다”고 전했다.

저작권자 © 여성신문 무단전재 및 재배포 금지