AI 환각

AI 환각
AI 환각이란 무엇인가요?
AI 환각은 언어 모델(예: ChatGPT)이 제공하는 답변이 합리적으로 보이지만 완전히 거짓일 때 발생합니다. 이러한 부정확한 답변은 언어 모델이 의도적으로 거짓말을 해서가 아니라 모델에 사용된 학습 데이터에 올바른 답변에 필요한 정보가 포함되어 있지 않기 때문입니다. 예를 들어 2021년 9월 이후에 생성된 데이터는 ChatGPT의 학습에 포함되지 않았으므로 이러한 데이터에 대해 문의할 경우 ChatGPT가 정확하게 응답할 수 없습니다.
경우에 따라 ChatGPT는 답변이 없다고 표시하지만, 완전히 조작된 답변을 생성하는 경우도 있습니다.
AI 환각 문제 설명
AI 환각은 AI 모델이 잘못된 정보를 생성하고도 마치 사실인 것처럼 제시할 때 발생합니다. 이러한 착각은 종종 학습 데이터와 알고리즘의 한계나 편견으로 인해 발생하며, 부정확하고 잠재적으로 유해한 콘텐츠를 생성할 수 있습니다.
AI가 환각을 일으키는 이유
AI 환각은 다음과 같은 여러 가지 이유로 발생할 수 있습니다:
- 불충분하거나, 오래되었거나, 품질이 낮은 학습 데이터: AI 모델은 학습한 데이터만큼만 성능이 향상됩니다. AI 도구가 사용자의 질문을 이해하지 못하거나 충분한 정보가 부족한 경우, 정확하지 않더라도 학습된 제한된 데이터 세트에 의존하여 응답을 생성할 수 있습니다.
- 과적합: 제한된 데이터 세트에 대해 학습된 AI 모델은 입력과 해당 출력을 암기할 수 있습니다. 그 결과 새로운 데이터로 일반화하는 데 어려움을 겪을 수 있으며, 이로 인해 AI가 효과적으로 착각을 일으킬 수 있습니다.
또한 AI 모델이 학습하지 않은 관용구나 속어 표현을 사용하거나 의도적으로 AI를 혼동하도록 설계된 프롬프트를 사용하는 적대적 공격 등 다른 요인도 AI 착각의 원인이 될 수 있습니다.
AI 환각의 예
AI 환각의 예로는 ChatGPT로 작업할 때의 이 예가 있습니다. ChatGPT에 "허깅 페이스가 OpenAI Whisper를 지원하나요?"라는 질문을 던졌을 때, 한계를 인정하고 데이터가 없다는 정확한 답변을 제공했지만 그 답변은 실제로는 유용하지 않았습니다.
2021년 9월 현재, 허깅 페이스는 OpenAI Whisper에 대한 지원을 발표하지 않았습니다. 하지만 향후 지원을 추가할 가능성은 언제든지 있습니다. OpenAI Whisper는 OpenAI의 새로운 언어 모델이므로 다른 회사 및 개발자가 플랫폼과 제품에 통합하는 데 시간이 다소 걸릴 수 있습니다.
벡터 데이터베이스](https://zilliz.com/learn/what-is-vector-database)에 최신 콘텐츠(Github 리포지토리, 문서, readme 등)를 저장하는 챗봇을 통해 동일한 질문을 하면 완전히 다른 정확한 결과를 얻을 수 있습니다;
예, Hugging Face는 OpenAI Whisper를 지원합니다. FlaxWhisperModel 클래스는 OpenAI Whisper 모델을 감싸는 래퍼인 트랜스포머 라이브러리에서 사용할 수 있습니다. 이 클래스를 사용하여 사전 학습된 OpenAI Whisper 모델을 로드하고 텍스트 분류, 질문 답변, 텍스트 생성 등 다양한 자연어 처리 작업에 사용할 수 있습니다.
AI 환각을 줄이는 방법
AI 환각을 줄이거나 없애기 위해 몇 가지 방법을 사용할 수 있습니다. 첫 번째는 답을 찾을 때 LLM에 구체적인 지시를 내리는 것입니다. 예를 들어 "예" 또는 "아니오"로만 응답하도록 요청하거나, 정확성을 보장하는 데 도움이 되는 참고 자료를 제공하도록 요청하거나, 온도 설정을 조정해 볼 수도 있습니다.
또한 답변을 공식화하기 위해 실제 데이터를 제공할 수도 있습니다. 이 작업은 데이터를 벡터 임베딩으로 변환하여 벡터 데이터베이스에 저장하는 방식으로 이루어집니다. 대부분의 경우 사용자가 상호작용하는 챗봇 프런트엔드가 있습니다. 사용자가 질문을 하면 질문이 벡터 임베딩으로 변환됩니다. 그런 다음 가장 가까운 이웃 검색을 수행하여 의미론적으로 유사한 항목을 찾은 다음 이 데이터를 LLM에 제시하여 정확한 응답을 생성합니다.
질리즈가 AI 환각에 도움이 되나요?
질리즈 클라우드(및 밀버스)는 벡터 임베딩으로 변환된 지식 베이스를 저장하고 쿼리하여 AI 환각에 도움을 줍니다. OSSChat은 이러한 환각을 줄이기 위해 벡터 데이터베이스를 어떻게 사용할 수 있는지 보여주는 샘플 애플리케이션입니다. 다음은 Zilliz를 사용하여 환각을 줄이는 방법에 대한 몇 가지 추가 리소스입니다:
- ChatGPT+ 벡터 데이터베이스 + 코드형 프롬프트 - CVP 스택
- OpenAI의 ChatGPT 소개](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
- 또 다른 캐시, 하지만 ChatGPT용