• 돌아가기
  • 아래로
  • 위로
  • 목록
  • 댓글
정보

ChatGPT 응답 품질의 놀라운 감소

달소 달소 130

0

0
출처 https://www.tomshardware.com/news/chatgpt-response-quality-decline

Chat GPT-4 소수 식별 정확도는 2023년 3월부터 6월까지 97.6%에서 2.4%로 떨어졌습니다.

 

최근 몇 달 동안 ChatGPT 응답의 품질 저하에 관한 일화적인 증거와 일반적인 불평이 넘쳐났습니다. Stanford와 UC Berkeley의 연구팀은 실제로 성능 저하가 있는지 확인하고 해로운 변화의 규모를 정량화하기 위한 지표를 제시하기로 결정했습니다. 간단히 말해서 ChatGPT 품질 의 다이빙은 확실히 상상할 수 없었습니다.


세 명의 저명한 학자 Matei Zaharia, Lingjiao Chen, James Zou가 최근 발표한 연구 논문인 How Is ChatGPT의 동작은 시간이 지남에 따라 어떻게 변하는가? (PDF) 오늘 일찍 Zaharia에 있는 UC Berkeley의 컴퓨터 과학 교수는 트위터를 통해 연구 결과를 공유 했습니다 . 그는 "GPT-4의 '이 숫자가 소수인가? 단계적으로 생각하라'에 대한 성공률이 3월부터 6월까지 97.6%에서 2.4%로 떨어졌다"고 놀라울 정도로 강조했다.


GPT-4는 약 2주 전에 일반적으로 사용할 수 있게 되었으며 OpenAI에서 가장 발전되고 유능한 모델로 선정되었습니다. API 개발자에게 신속하게 공개되어 다양한 새로운 혁신적인 AI 제품을 구동할 수 있다고 주장했습니다. 따라서 새로운 연구에서 매우 간단한 질문에 대한 양질의 응답이 부족하다는 사실을 발견한 것은 슬프고 놀라운 일입니다.


우리는 이미 위의 소수 쿼리에서 GPT-4의 최상의 실패율에 대한 예를 제공했습니다. 연구팀은 ChatGPT의 기본 대규모 언어 모델(LLM) GPT-4 및 GPT-3.5의 다음과 같은 질적 측면을 측정하기 위한 작업을 설계했습니다. 작업은 4가지 범주로 나뉘며 다양한 범위의 AI 기술을 측정하는 동시에 성능 평가가 상대적으로 간단합니다.

 

  • 수학 문제 풀기
  • 민감한 질문에 답하기
  • 코드 생성
  • 시각적 추론

Open AI LLM의 성능에 대한 개요는 아래 차트에 나와 있습니다. 연구원들은 2023년 3월 및 2023년 6월 릴리스에서 GPT-4 및 GPT-3.5 릴리스를 정량화했습니다.

image.png.jpg

 

(이미지 제공: Matei Zaharia, Lingjiao Chen, James Zou)

"동일한" LLM 서비스가 시간이 지남에 따라 상당히 다르게 쿼리에 응답한다는 것이 명확하게 설명됩니다. 이 비교적 짧은 기간 동안 상당한 차이가 나타납니다. 이러한 LLM이 어떻게 업데이트되고 성능의 일부 측면을 개선하기 위한 변경 사항이 다른 측면에 부정적인 영향을 미칠 수 있는지는 불분명합니다. 세 가지 테스트 범주에서 GPT-4 최신 버전이 3월 버전과 비교하여 얼마나 '더 나쁜'지 확인하십시오. 시각적 추론에서 작은 차이의 승리를 누리고 있습니다.

image.png.jpg

 

(이미지 제공: Matei Zaharia, Lingjiao Chen, James Zou)

일부는 이러한 LLM의 '동일한 버전'에서 관찰되는 다양한 품질에 대해 신경 쓰지 않을 수 있습니다. 그러나 연구원들은 "ChatGPT의 인기로 인해 GPT-4와 GPT-3.5 모두 개인 사용자와 여러 기업에서 널리 채택되었습니다."라고 말합니다. 따라서 일부 GPT 생성 정보가 귀하의 삶 에 영향을 미칠 수 있는 가능성을 넘어선 것은 아닙니다 .

연구자들은 더 긴 연구에서 GPT 버전을 계속 평가하겠다는 의도를 표명했습니다. 아마도 Open AI는 유료 고객을 위해 자체적인 정기적인 품질 검사를 모니터링하고 게시해야 합니다. 이에 대해 명확하지 않은 경우 비즈니스 또는 정부 조직이 이러한 LLM에 대한 몇 가지 기본 품질 메트릭을 계속 확인해야 할 수 있으며 이는 상당한 상업적 및 연구 영향을 미칠 수 있습니다.

 

신고공유스크랩
0

댓글 쓰기 권한이 없습니다. 로그인

취소 댓글 등록

신고

"님의 댓글"

이 댓글을 신고하시겠습니까?

댓글 삭제

"님의 댓글"

삭제하시겠습니까?


목록

공유

facebooktwitterpinterestbandkakao story