![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
DeepSeek은 4 월 30 일 최신 모델 인 Prover V2를 호스팅 서비스 Hugging Face에 업로드했습니다. 허용 된 오픈 소스 MIT 라이센스 아래에 출시 된 최신 모델은 수학 증거 검증을 다루는 것을 목표로합니다.
Chinese artificial intelligence development company DeepSeek has released a new large language model (LLM) on the hosting service Hugging Face.
중국 인공 지능 개발 회사 인 Deepseek은 호스팅 서비스 Hugging Face에 새로운 대형 언어 모델 (LLM)을 발표했습니다.
The latest model, Prover V2, is being released under the permissive open-source MIT license. It is a continuation of the Prover V1 line, first announced in August 2024. The first version of the model was presented in a paper titled “Prover: A Large Language Model for Compressing Mathematical Knowledge and Programming Lean 4.”
최신 모델 인 Prover V2는 허용 오픈 소스 MIT 라이센스에 따라 출시됩니다. 2024 년 8 월에 처음 발표 된 Prover V1 라인의 연속입니다.이 모델의 첫 번째 버전은“Prover : 수학 지식을 압축하고 프로그래밍을위한 대형 언어 모델”이라는 제목의 논문에 제목의 논문에 제목을 붙였습니다.
Prover V1 was trained to translate math competition problems into the Lean 4 programming language, which is used for proving theorems and was developed at Microsoft Research. The model was based on DeepSeek’s seven-billion-parameter DeepSeekMath model and was fine-tuned on synthetic data. Synthetic data refers to data used for training AI models that was, in turn, also generated by AI models, with human-generated data usually seen as an increasingly scarce source of higher-quality data.
Prover V1은 수학 경쟁 문제를 Lean 4 프로그래밍 언어로 번역하도록 훈련을 받았으며, 이는 이론을 입증하는 데 사용되며 Microsoft Research에서 개발되었습니다. 이 모델은 DeepSeek의 7 억 파라미터 Deepseekmath 모델을 기반으로했으며 합성 데이터에 미세 조정되었습니다. 합성 데이터는 AI 모델에 의해 생성 된 AI 모델을 훈련시키는 데 사용 된 데이터를 말하며, 인간 생성 데이터는 일반적으로 점점 더 높은 품질의 데이터의 원인으로 간주됩니다.
Prover V1.5, in turn, improved on the previous version by optimizing both training and execution and achieving higher accuracy in several common benchmarks.
Prover v1.5는 차례로 교육 및 실행을 최적화하고 몇 가지 일반적인 벤치 마크에서 더 높은 정확도를 달성함으로써 이전 버전에서 향상되었습니다.
The new Prover V2 model is expected to run from RAM or VRAM. It has 671 billion parameters and weighs approximately 650 GB. To get them down to this size, Prover V2 weights have been quantized down to eight-bit floating point precision, meaning that each parameter has been approximated to take half the space of the usual 16 bits, with a bit being a single digit in binary numbers. This effectively halves the model’s bulk.
새로운 Prover V2 모델은 RAM 또는 VRAM에서 실행될 것으로 예상됩니다. 671 억 파라미터가 있으며 무게는 약 650GB입니다. 이 크기로 내려 가기 위해, Prover V2 가중치는 8 비트 부동물 정밀도로 정량화되었으며, 이는 각 파라미터가 평소 16 비트의 절반을 차지하기 위해 근사되었으며, 비트는 이진수의 단일 숫자입니다. 이것은 모델의 벌크를 효과적으로 반으로 반으로합니다.
So far, the improvements introduced by Prover V2 are unclear, as no research paper or other information has been published at the time of writing. The number of parameters in the Prover V2 weights suggests that it is likely to be based on the company’s previous R1 model. When it was first released, R1 made waves in the AI space with its performance comparable to the then state-of-the-art OpenAI’s o1 model.
지금까지 Prover V2가 도입 한 개선 사항은 글을 쓰는 시점에 연구 논문이나 기타 정보가 게시되지 않았기 때문에 불분명합니다. Prover V2 가중치의 매개 변수 수는 회사의 이전 R1 모델을 기반으로 할 가능성이 있음을 시사합니다. 처음 출시되었을 때 R1은 AI 공간에서 파도를 만들었습니다.
The importance of open weights
열린 무게의 중요성
Publicly releasing the weights of LLMs is a controversial topic. On one side, it is a democratizing force that allows the public to access AI on their own terms without relying on private company infrastructure.
LLM의 무게를 공개적으로 공개하는 것은 논란의 여지가있는 주제입니다. 한편으로는, 대중이 민간 회사 인프라에 의존하지 않고 자신의 용어로 AI에 액세스 할 수있는 민주화 세력입니다.
On the other side, it means that the company cannot step in and prevent abuse of the model by enforcing certain limitations on dangerous user queries. The release of R1 in this manner also raised security concerns, and some described it as China’s “Sputnik moment.”
다른 한편으로는 회사가 위험한 사용자 쿼리에 대한 특정 제한을 시행하여 모델의 학대를 예방할 수 없음을 의미합니다. 이러한 방식으로 R1의 출시는 보안 문제를 제기했으며 일부는이를 중국의 "스푸트니크 순간"이라고 묘사했습니다.
Open source proponents rejoiced that DeepSeek continued where Meta left off with the release of its LLaMA series of open-source AI models, proving that open AI is a serious contender for OpenAI’s closed AI. The accessibility of those models is also constantly improving.
오픈 소스 지지자들은 Deepseek이 LLAMA 시리즈의 Open-Source AI 모델의 출시로 Meta가 중단 된 곳에서 계속해서 Openai의 폐쇄 된 AI에 대한 심각한 경쟁자임을 증명했다. 이러한 모델의 접근성도 지속적으로 향상되고 있습니다.
Now, even users without access to a supercomputer that costs more than the average home in much of the world can run LLMs locally. This is primarily thanks to two AI development techniques: model distillation and quantization.
이제 전 세계의 대부분의 평균 주택보다 비용이 많이 드는 슈퍼 컴퓨터에 액세스 할 수없는 사용자조차도 LLM을 현지에서 운영 할 수 있습니다. 이는 주로 모델 증류 및 양자화의 두 가지 AI 개발 기술 덕분입니다.
Distillation refers to training a compact “student” network to replicate the behavior of a larger “teacher” model, so you keep most of the performance while cutting parameters to make it accessible to less powerful hardware. Quantization consists of reducing the numeric precision of a model’s weights and activations to shrink size and boost inference speed with only minor accuracy loss.
증류는 더 큰 "교사"모델의 동작을 복제하기 위해 컴팩트 한 "학생"네트워크를 훈련시키는 것을 말하므로 매개 변수를 덜 강력한 하드웨어에 액세스 할 수 있도록 대부분의 성능을 유지하면서 대부분의 성능을 유지합니다. 양자화는 모델의 가중치의 숫자 정밀도를 감소시키고 활성화는 크기를 줄이고 소량의 정확도 손실만으로 추론 속도를 높이는 것으로 구성됩니다.
An example is Prover V2’s reduction from 16 to eight-bit floating point numbers, but further reductions are possible by halving bits further. Both of those techniques have consequences for model performance, but usually leave the model largely functional.
예를 들어, Prover V2의 감소는 16 ~ 8 비트 부동물 포인트 수로 감소하지만 비트를 줄임으로써 추가 감소가 가능합니다. 이 두 기술 모두 모델 성능에 영향을 미치지 만 일반적으로 모델을 크게 기능하게합니다.
DeepSeek’s R1 was distilled into versions with retrained LLaMA and Qwen models ranging from 70 billion parameters to as low as 1.5 billion parameters. The smallest of those models can even reliably be run on some mobile devices.output: Publicly releasing the weights of large language models (LLMs) is a hotly debated topic. On one side of the argument, it is a democratizing force that allows the public to access AI on their own terms without relying on private company infrastructure. On the other side, it means that the company cannot step in and prevent abuse of the model by enforcing certain limitations on dangerous user queries.
DeepSeek의 R1은 7,000 억 매개 변수에서 15 억 개의 매개 변수까지 재교육 된 LLAMA 및 Qwen 모델이있는 버전으로 증류되었습니다. 이러한 모델 중 가장 작은 모델은 일부 모바일 장치에서도 안정적으로 실행될 수 있습니다. 아웃 : LLM (Lange Models)의 가중치를 공개적으로 공개하는 것은 뜨거운 논쟁의 여지가있는 주제입니다. 논쟁의 한 측면에서, 대중이 민간 회사 인프라에 의존하지 않고 자신의 용어로 AI에 액세스 할 수있는 민주화 세력입니다. 다른 한편으로는 회사가 위험한 사용자 쿼리에 대한 특정 제한을 시행하여 모델의 학대를 예방할 수 없음을 의미합니다.
Those who follow the artificial intelligence (AI) landscape closely will recall the fuss that ensued when DeepSeek, a leading Chinese AI development company, released its R1 LLM with 1.5 trillion parameters. The model, which achieved performance comparable to OpenAI’s o1, was made available on the Hugging Face hosting service with the permissive MIT license.
인공 지능 (AI) 환경을 따라 가면 중국 AI 개발 회사 인 Deepseek이 1.5 조 매개 변수로 R1 LLM을 발표했을 때 발생한 소란을 떠올리게 될 것입니다. OpenAI의 O1과 비슷한 성능을 달성 한이 모델은 허용 MIT 라이센스와 함께 Hugging Face Hosting Service에서 제공되었습니다.
The release of R1 sparked a great deal of discussion in both the technical and economic spheres, with some comparing it to a “Sputnik moment” for China in the AI race. It also prompted a response from OpenAI, which announced that it would be releasing the weights of its own models in
R1의 출시는 기술 및 경제 분야에서 많은 논의를 촉발 시켰으며, 일부는 AI 경주에서 중국의 "스푸트니크 순간"과 비교하여 많은 토론을 촉발시켰다. 또한 OpenAi의 응답을 촉발 시켰으며, 이는 자체 모델의 무게를 공개 할 것이라고 발표했습니다.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.