![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
인간 피드백을 통한 강화 학습 (RLHF) :이 기술이 Chatgpt 및 기타 고급 언어 모델에 어떻게 힘을 낼 수 있는지 알아보십시오.
Reinforcement Learning with Human Feedback: Explained Simply for the Layman
인간 피드백을 가진 강화 학습 : 단순히 평신도를 위해 설명
ChatGPT's arrival in 2022 revolutionized our perception of AI. Its impressive capabilities spurred the creation of other powerful Large Language Models (LLMs). A key innovation behind ChatGPT's success is Reinforcement Learning from Human Feedback (RLHF). This article provides a simplified explanation of RLHF, avoiding complex reinforcement learning jargon.
Chatgpt가 2022 년에 도착한 것은 AI에 대한 우리의 인식에 혁명을 일으켰습니다. 인상적인 기능은 다른 강력한 대형 언어 모델 (LLM)의 생성을 자극했습니다. Chatgpt의 성공의 주요 혁신은 인간 피드백 (RLHF)의 강화 학습입니다. 이 기사는 복잡한 강화 학습 전문 용어를 피하면서 RLHF에 대한 단순화 된 설명을 제공합니다.
NLP Development Before ChatGPT: The Bottleneck of Human Annotation
Chatgpt 전 NLP 개발 : 인간 주석의 병목 현상
Traditionally, LLM development involved two main stages:
전통적으로 LLM 개발은 두 가지 주요 단계를 포함했습니다.
- Pre-training: Language modeling where the model predicts hidden words, learning language structure and meaning.
- Fine-tuning: Adapting the model for specific tasks like summarization or question answering, often requiring human-labeled data.
The fine-tuning stage faces a significant hurdle: the need for extensive human annotation. For example, creating a question-answering dataset requires humans to provide accurate answers for millions or even billions of questions. This process is time-consuming and doesn't scale well.
미세 조정 단계는 상당한 장애물에 직면 해 있습니다 : 광범위한 인간 주석의 필요성. 예를 들어, 질문 답변 데이터 세트를 작성하려면 인간이 수백만 또는 수십억 개의 질문에 대한 정확한 답변을 제공해야합니다. 이 과정은 시간이 많이 걸리고 확장되지 않습니다.
RLHF: A Smarter Approach to Training LLMs
RLHF : LLM 훈련에 대한 더 똑똑한 접근
RLHF addresses this limitation by leveraging a clever approach. Instead of asking humans to provide direct answers, it asks them to choose the better answer from a pair of options. This simpler task allows for continuous improvement of models like ChatGPT.
RLHF는 영리한 접근 방식을 활용 하여이 제한을 다룹니다. 인간에게 직접적인 답변을 요청하는 대신 한 쌍의 옵션에서 더 나은 답변을 선택하도록 요청합니다. 이 간단한 작업을 통해 Chatgpt와 같은 모델을 지속적으로 개선 할 수 있습니다.
Response Generation: Creating Options for Human Feedback
응답 생성 : 인간 피드백 옵션 작성
LLMs generate responses by predicting the probability of the next word in a sequence. Techniques like nucleus sampling introduce randomness, producing diverse text sequences. RLHF uses these techniques to generate pairs of responses for human evaluation.
LLM은 다음 단어의 확률을 순서대로 예측하여 응답을 생성합니다. 핵 샘플링과 같은 기술은 다양한 텍스트 시퀀스를 생성하여 임의성을 유발합니다. RLHF는 이러한 기술을 사용하여 인간 평가에 대한 반응 쌍을 생성합니다.
Reward Model: Quantifying the Quality of Responses
보상 모델 : 응답 품질을 정량화합니다
The human-labeled data is used to train a "reward model." This model learns to estimate how good or bad a given answer is for an initial prompt, assigning positive values to good responses and negative values to bad ones. The reward model shares the same architecture as the original LLM, but outputs a numerical score instead of text.
인간-표지 된 데이터는 "보상 모델"을 훈련시키는 데 사용됩니다. 이 모델은 주어진 대답이 초기 프롬프트에 대한 대답이 얼마나 좋든 나쁜지를 추정하여 양호한 반응에 양수 값을 할당하고 나쁜 것들에 부정적인 값을 할당합니다. 보상 모델은 원래 LLM과 동일한 아키텍처를 공유하지만 텍스트 대신 숫자 점수를 출력합니다.
Training the Original LLM with the Reward Model
보상 모델로 원래 LLM을 훈련시킵니다
The trained reward model then guides the training of the original LLM. The LLM generates responses, which are evaluated by the reward model. These numerical estimates are used as feedback to update the LLM's weights, refining its ability to generate high-quality responses. This process often utilizes a reinforcement learning algorithm like Proximal Policy Optimization (PPO), which, in simplified terms, can be thought of as similar to backpropagation.
그런 다음 훈련 된 보상 모델은 원래 LLM의 교육을 안내합니다. LLM은 응답을 생성하며 보상 모델에 의해 평가됩니다. 이 수치 추정치는 LLM의 가중치를 업데이트하기위한 피드백으로 사용되어 고품질 응답을 생성하는 능력을 정제합니다. 이 프로세스는 종종 PPO (Proximal Policy Optimization)와 같은 강화 학습 알고리즘을 사용하여 단순화 된 용어로 역 전파와 유사하게 생각할 수 있습니다.
Inference and Continuous Improvement
추론 및 지속적인 개선
During inference (when you're using the model), only the original trained model is used. However, the model can continuously improve in the background by collecting user prompts and asking users to rate which of two responses is better, feeding this back into the reward model and retraining the LLM.
추론 중 (모델을 사용할 때) 원래 훈련 된 모델 만 사용됩니다. 그러나이 모델은 사용자 프롬프트를 수집하고 사용자에게 두 가지 응답 중 어느 것이 더 나은지를 평가하여이를 보상 모델에 다시 공급하고 LLM을 재교육하도록 요청하여 백그라운드에서 지속적으로 개선 할 수 있습니다.
Why This Matters
이것이 중요한 이유
RLHF's beauty lies in its efficiency and scalability. By simplifying the annotation task for humans, it enables the training of powerful LLMs like ChatGPT, Claude, Gemini, and Mistral. It's a game-changer because it allows us to overcome the limitations of traditional fine-tuning methods that rely on extensive, manually labeled datasets. Imagine trying to teach a puppy a trick. Instead of perfectly sculpting its every move, you simply reward it when it gets closer to the desired action. That's the essence of RLHF – guiding the AI with simple feedback.
RLHF의 아름다움은 효율성과 확장성에 있습니다. 인간의 주석 작업을 단순화함으로써 Chatgpt, Claude, Gemini 및 Mistral과 같은 강력한 LLM을 훈련시킬 수 있습니다. 광범위하고 수동으로 레이블이 지정된 데이터 세트에 의존하는 전통적인 미세 조정 방법의 한계를 극복 할 수 있기 때문에 게임 체인저입니다. 강아지에게 속임수를 가르치려고한다고 상상해보십시오. 모든 움직임을 완벽하게 조각하는 대신 원하는 행동에 가까워지면 보상합니다. 그것이 RLHF의 본질입니다 - 간단한 피드백으로 AI를 안내합니다.
The Future is Feedback
미래는 피드백입니다
RLHF is a really elegant blend of LLMs with a reward model that allows us to greatly simplify the annotation task performed by humans. Who knew that the secret to smarter AI was simply asking for a little human help? Now, if only we could get our algorithms to do the dishes...
RLHF는 인간이 수행 한 주석 작업을 크게 단순화 할 수있는 보상 모델과 LLM의 정말 우아한 조화입니다. Smarter AI의 비밀이 단순히 약간의 인간의 도움을 요청하고 있다는 것을 누가 알았습니까? 이제 우리가 알고리즘을 요리 할 수 있다면 ...
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.