생성형 AI는 대규모 데이터 학습을 통해 텍스트, 이미지, 음악, 영상 등을 생성하는 기술로, 인공지능이 침범할 수 없을 것으로 여겨졌던 창작의 영역에서 놀라운 성과를 보이며 무서운 속도로 발전하고 있다. 이에 따라 저작권자와 생성형 AI 기술을 제공하는 사업자 간 분쟁도 다수 벌어지고 있다.
그 중에서도 LLM에 관해서는 뉴욕타임즈와 OpenAI 및 마이크로소프트 사이에서 미국에서 진행되고 있는 소송이, 확산 모델에 의한 이미지 생성 AI에 관해서는 스톡이미지를 판매하는 Getty Images와 Stability AI 사이에서 영국에서 진행되고 있는 소송이 주목할 만하다. 이를 중심으로, AI를 활용함에 있어서 주의해야 할 저작권법 상의 쟁점 및 시사점을 살펴본다.
1. LLM – 뉴욕타임즈와 OpenAI 간 소송
1.1 저작권법 상 쟁점
뉴욕타임즈는 2023년 말경 OpenAI 및 Microsoft을 상대로, 피고들의 GPT 기반 서비스가 뉴욕타임즈의 기사를 대량으로 복제하여 학습함으로써 만들어졌고, 프롬프팅에 따라서는 학습에 사용된 기사를 거의 동일하게 출력해 낸다는 이유로, 저작권 침해를 주장하며 미국 뉴욕주 Southern District 연방지방법원에 소를 제기하였다.
학습용 데이터를 수집하는 과정에서의 복제권 침해 여부는, 사실 Authors Guild v. Google, Inc., 804 F.3d 202 (2d Cir. 2015) 판결에 의해 어느 정도 정리되었다고 볼 수 있다. 이 사건은 인공지능 학습과는 무관하지만, Google이 도서검색 서비스를 위해 도서를 스캔하여 저장한 행위가 공정이용으로 인정받은 사례로서, 생성형 AI의 학습용 데이터 수집 및 이용에도 동일하게 적용될 수 있다고 본다.
도서검색 서비스와 달리 공정이용이 인정되지 않을 가능성이 있다면, 학습된 데이터를 거의 그대로 출력함으로써 복제권 침해가 발생하는 경우가 있다는 점이다. OpenAI는 뉴욕타임즈가 약관에 위배되는 방식으로 수없이 많은 프롬프팅 시도 끝에 뉴욕타임즈 기사를 그대로 출력하는 결과를 얻어냈고, 이는 인공지능 기술에서 해결해야 할 과적합(overfitting) 현상에 불과하다고 주장하였다. 즉, GPT는 ‘상당한 비침해적 용도(substantial non-infringing use)’가 있기 때문에, GPT를 개발하고 이용자에게 제공하는 행위가 저작권 침해행위의 방조가 되지 않는다는 것이다. 미국 연방대법원은 일찌기 비슷한 논거로 소니가 베타맥스 비디오테잎 레코더를 제조·판매한 행위가 영상물에 관한 저작권 침해에 해당하지 않는다고 판시한 바 있다[Sony Corp. of America v. Universal City Studios, Inc., 464 U.S. 417, 456 (1984)].
1.2 그밖의 쟁점
미국 소송에서는 문제되지 않지만, 우리 저작권법은 데이터베이스제작자의 권리(이하 편의상 “데이터베이스권”으로 약칭한다)를 인정하고 있다. 저작권법은 데이터베이스의 상당한 부분을 복제하거나 반복적·체계적으로 복제하는 행위를 데이터베이스권 침해로 규정하면서(저작권법 제93조) 공정이용 조항을 준용하고 있다(동법 제94조 제1항, 제35조의5). 이에 관하여 참고할 만한 판례는 찾기 어려우나, 저작권법 상 데이터베이스를 보호하는 취지가 소재의 선택·배열 및 개별적 접근 가능성에 있다고 본다면, 수집된 학습 데이터의 집합이 이러한 특징을 가지고 있지 않은 이상, 결론적으로 데이터베이스권 침해는 성립하지 않거나 공정이용이 성립한다고 보는 것이 타당하다고 생각한다.
그밖에 위 미국 소송에서는 GPT가 이른바 환각(hallucination)에 의해 뉴욕타임즈가 작성하지 않은 기사를 뉴욕타임즈의 기사인 것처럼 설명하는 현상이 상표권의 희석·훼손에 해당하는지, 검색 결과에서 웹사이트의 내용을 요약하여 보여줌으로써 뉴욕타임즈 웹사이트로의 유입을 줄어들게 하는 것이 부정경쟁에 해당하는지 여부 등 흥미로운 쟁점들이 다투어지고 있다.
2. 이미지 생성 – Getty Images와 Stability AI
2.1 소송 상의 쟁점
이미지를 생성하는 모델 중 확산(diffusion) 모델은, 학습용 이미지에 점차 노이즈를 추가하는 과정을 통하여 반대로 특정 프롬프트를 기초로 노이즈를 제거하는 과정을 학습하여, 결과적으로 노이즈로부터 특정 프롬프트를 충족하는 이미지를 생성할 수 있도록 만들어진다.
Getty Images는 이용자가 이미지를 검색한 다음 원하는 이미지의 라이선스를 구매하여 사용할 수 있도록 해주는 서비스를 제공하므로, 고품질의 이미지와 해당 이미지의 내용을 상세히 묘사한 텍스트 데이터를 대량으로 보유하고 있다. Stability AI는 Getty Images 웹사이트를 크롤링하여 얻은 이미지 및 텍스트 데이터를 학습에 사용하여 ‘Stable Diffusion’을 내놓았고, 이는 현재 가장 널리 사용되고 있는 이미지 생성용 확산 모델 중 하나이다.
Getty Images는 2023년 5월경 영국에서 Stability AI를 상대로 소를 제기하였고, 관할에 관한 문제가 제기되자 미국에서도 소를 제기하였다. 이 소송에서도 대체로 앞서 본 뉴욕타임즈 사건과 비슷한 쟁점들이 다투어지고 있다. Stability AI가 OpenAI나 마이크로소프트와 마찬가지 논리로 공정이용을 주장할 수 있는지 여부는 사실관계에 따라 달라질 수 있을 것으로 보이며, 문제되는 저작물이 텍스트가 아닌 이미지라는 점에서 저작물의 특성도 어느 정도 영향이 있을 것으로 보인다.
2.2 소송 외의 쟁점
위 소송에서는 부각되지 않았지만, 확산 모델 관련 커뮤니티들에서는 공정이용에 관한 법리를 고려하더라도 명백히 저작권 침해에 해당하거나 상당히 논란이 될 만한 모듈들이 널리 퍼지고 있다. 또한 출력될 이미지의 조건을 매우 구체적으로 한정하거나(예컨대 ControlNet) 이미지 자체를 프롬프트로 사용하는 기술(예컨대 IPAdapter)이 널리 사용되면서, ‘인공지능이 자동으로 생성했을 뿐 침해를 의도하지 않았다’는 변명은 설 자리가 좁아졌다.
3. 시사점
위 두 소송은 향후 창작자와 인공지능의 대립 구도로 전개되고 있는 분쟁을 대표한다고 할 수 있을 만한 것으로, 그 결론에 따라 인공지능 산업 및 이를 활용하는 사업 운영에 지대한 영향을 미칠 것으로 예상되어 귀추가 주목된다.
생성형 AI를 구현하는 기술이 급속도로 발전하고 비용이 낮아지며 대중화됨에 따라 이러한 기술을 활용하는 기업들이 늘어나고 있는데, 이러한 기업들은 어떤 법리적 쟁점들이 있으며 그에 따른 위험을 회피하기 위해 어떤 조치를 취해야 하는지를 정확히 이해할 필요가 있다.
한편, 법적인 쟁점은 아니지만, 인공지능을 활용한 창작이 예술로 인정받을 수 있는지, 우리가 인공지능 기술을 어떻게 받아들이고 활용할 것인지에 대한 사회적 논의도 더 활발해질 것으로 기대해 본다.
관련 기사는 아래 기사 원문을 참고 부탁드립니다. 감사합니다.
법률신문
원문보기▼
https://www.lawtimes.co.kr/LawFirm-NewsLetter/201296