
한민일보 서울포커스 기자 | 과학기술정보통신부와 한국지능정보사회진흥원은 인공지능 모델 개발 지원을 위한 인공지능 학습용 데이터 구축의 일환인 2026년 추론데이터 10종 구축 사업 공모를 4월 1일부터 시작한다고 밝혔다.
최근 국제 인공지능 경쟁이 양질의 데이터 확보 중심으로 전환되고 있는 기술 흐름을 반영하여, 논리적 사고 과정(Chain of Thought/CoT 등)과 인과관계를 포함한 고품질 추론데이터를 구축함으로써 인공지능 모델의 신뢰성과 산업 적용성을 높이고 국내 인공지능 산업 경쟁력을 강화하겠다는 방침이다.
이번 사업은 총 66억 원 규모로 10개 과제를 추진하며, 대규모 언어모델(LLM)과 물리적 인공지능(피지컬 AI, 제조·로봇공학'로보틱스') 분야를 중심으로 산업 현장에서 실제 활용될 수 있는 고난도 추론형 인공지능 데이터를 구축한다.
대규모 언어모델(LLM) 분야에서는 복잡한 문서 이해, 논리적 판단, 도구 활용 등 대규모 언어모델(LLM)을 중심으로 한 문제 해결 과정에서 단계적 추론과 판단 근거를 포함하는 추론데이터를 구축한다. 특히 한국의 사회·문화적 맥락과 언어 특성을 반영한 추론 인공지능 구현을 위해 기반 데이터 확보에 주력할 예정이다.
세부 과제로는 △복합 문서 기반 지식 추론데이터 △연구 과정 지원(AI for Science) 데이터 △한국어 기반 도구 호출(Tool Calling) 추론데이터 △웹/그래픽 사용자 인터페이스(GUI) 기반 행동 추론데이터 △오류 증강 및 교정 추론데이터 5개를 추진한다.
물리적 인공지능(피지컬 AI, 제조·로보틱스) 분야에서는 실제 산업 현장에서 발생하는 문제 상황을 기반으로 인공지능이 원인을 분석하고 해결 방안을 도출할 수 있는 추론형 데이터를 구축한다. 특히 돌발 변수가 발생하는 다양한 제조 환경에서도 상황을 인지하고 인과관계를 추론하여 작업을 수정·수행할 수 있는 자율 제조 기반 데이터를 확보할 계획이다.
세부 과제로는 △제조설비 다중 감지기(멀티센서) 이상 진단 및 원인 추론데이터 △표면 결함 원인 분석 및 품질 판정 추론데이터 △로봇 작업 실패 원인 분석 및 복구 행동 데이터 △인간형 로봇(휴머노이드) 행동 생성 물리 모의실험(시뮬레이션) 추론데이터 △비동기 공정 인과성 분석 및 추론데이터 5개를 추진한다.
이번 사업을 통해 구축된 데이터는 향후 ‘인공지능 거점’을 통해 공개되어 기업, 연구기관, 창업 초기 기업(스타트업) 등이 자유롭게 활용할 수 있도록 제공될 예정이다.
과기정통부 최동원 인공지능 인프라정책관은 “생성형 인공지능 확산으로 고차원적 추론과 맥락 이해가 가능한 학습용 데이터 수요가 증가하고 있다”라며, “이번 사업을 통해 실제 산업 현장에서 필요한 맞춤형 추론데이터를 확보해 대한민국 인공지능 산업의 질적 도약을 적극 지원하겠다”라고 밝혔다.


























































