동경 IT 뉴스 상세
총무성과 KDDI, 일본어 특화 AI 개발(7.1 니혼게이자이신문)
- 총무성과 KDDI는 일본어에 특화된 생성형 AI 공동 연구에 착수. 총무성 산하 연구기관이 대량의 일본어 학습용 데이터를 제공하고, KDDI의 AI 기술을 결합해 일본에서 사용하기 쉬운 AI 기반의 성능 향상을 목표로 함.
- 외국기업이 주도하는 AI 개발은 학습 데이터가 외국어에 편중되어 있는 것이 과제로, 최근 일본국내외 사업자들이 일본어용 개발을 서두르고 있으나, 복잡한 문법에 대응하지 못하거나 부자연스러운 답변을 유도할 우려가 있음.
- 일본정부는 자국내 AI 기반 강화를 위해 민간 활용을 목적으로 총무성 산하 정보통신연구기구(NICT)의 일본어 데이터 정비를 추진. KDDI와의 공동연구는 NICT의 첫 외부 제공.
- NICT의 데이터는 학습된 일본어가 많은 것이 특징. 데이터 양은 9테라바이트로, 오픈AI의 대규모 언어 모델(LLM) ‘GPT-3’의 2배가 넘는다고 함.
- 해외 대형 LLM은 언어 데이터 중 일본어 비율이 1% 미만인 경우도 있지만, NICT의 학습용 데이터는 대부분이 일본어. 보다 복잡한 표현과 문법에 대응할 수 있음.
- 외국기업이 주도하는 AI 개발은 학습 데이터가 외국어에 편중되어 있는 것이 과제로, 최근 일본국내외 사업자들이 일본어용 개발을 서두르고 있으나, 복잡한 문법에 대응하지 못하거나 부자연스러운 답변을 유도할 우려가 있음.
- 일본정부는 자국내 AI 기반 강화를 위해 민간 활용을 목적으로 총무성 산하 정보통신연구기구(NICT)의 일본어 데이터 정비를 추진. KDDI와의 공동연구는 NICT의 첫 외부 제공.
- NICT의 데이터는 학습된 일본어가 많은 것이 특징. 데이터 양은 9테라바이트로, 오픈AI의 대규모 언어 모델(LLM) ‘GPT-3’의 2배가 넘는다고 함.
- 해외 대형 LLM은 언어 데이터 중 일본어 비율이 1% 미만인 경우도 있지만, NICT의 학습용 데이터는 대부분이 일본어. 보다 복잡한 표현과 문법에 대응할 수 있음.