![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Deepseek veröffentlicht sein neues Open-Gewicht-Großsprachmodell (LLM)
May 01, 2025 at 01:17 am
Deepseek hat am 30. April sein neuestes Modell, Prover V2, auf das Hosting-Service-Umarmungsgesicht hochgeladen. Das neueste Modell, das unter der lizenzenden MIT-Lizenz für die Freizeit von Open-Source veröffentlicht wurde, zielt darauf ab, die Überprüfung der mathematischen Proof zu bewältigen.
Chinese artificial intelligence development company DeepSeek has released a new large language model (LLM) on the hosting service Hugging Face.
Das chinesische Unternehmen für künstliche Intelligenzentwicklungsunternehmen Deepseek hat ein neues großes Sprachmodell (LLM) für das Hosting -Service -Umarmungsgesicht veröffentlicht.
The latest model, Prover V2, is being released under the permissive open-source MIT license. It is a continuation of the Prover V1 line, first announced in August 2024. The first version of the model was presented in a paper titled “Prover: A Large Language Model for Compressing Mathematical Knowledge and Programming Lean 4.”
Das neueste Modell, Prover V2, wird unter der lizenzenden Open-Source-Lizenz veröffentlicht. Es handelt sich um eine Fortsetzung der Prover V1 -Linie, die erstmals im August 2024 angekündigt wurde. Die erste Version des Modells wurde in einem Papier mit dem Titel „Prover: Ein großes Sprachmodell zur Komprimierung mathematischer Kenntnisse und Programmierende Lean 4 präsentiert“.
Prover V1 was trained to translate math competition problems into the Lean 4 programming language, which is used for proving theorems and was developed at Microsoft Research. The model was based on DeepSeek’s seven-billion-parameter DeepSeekMath model and was fine-tuned on synthetic data. Synthetic data refers to data used for training AI models that was, in turn, also generated by AI models, with human-generated data usually seen as an increasingly scarce source of higher-quality data.
Prover V1 wurde geschult, um Probleme mit dem mathematischen Wettbewerb in die Lean 4 -Programmiersprache zu übersetzen, die zum Nachweis von Theoreme verwendet wird und bei Microsoft Research entwickelt wurde. Das Modell basierte auf Deepseeks sieben Milliarden Parameter Deekseekmath-Modell und wurde von synthetischen Daten fein abgestimmt. Synthetische Daten beziehen sich auf Daten, die für die Schulung von KI-Modellen verwendet wurden, die wiederum auch von KI-Modellen generiert wurden, wobei von Menschen erzeugte Daten normalerweise als zunehmend knappere Quelle für höherwertige Daten angesehen werden.
Prover V1.5, in turn, improved on the previous version by optimizing both training and execution and achieving higher accuracy in several common benchmarks.
Der Prover V1.5 verbesserte sich wiederum in der vorherigen Version durch Optimierung von Schulungen und Ausführung und einer höheren Genauigkeit in mehreren gemeinsamen Benchmarks.
The new Prover V2 model is expected to run from RAM or VRAM. It has 671 billion parameters and weighs approximately 650 GB. To get them down to this size, Prover V2 weights have been quantized down to eight-bit floating point precision, meaning that each parameter has been approximated to take half the space of the usual 16 bits, with a bit being a single digit in binary numbers. This effectively halves the model’s bulk.
Das neue Prover V2 -Modell wird voraussichtlich von RAM oder VRAM ausgeführt. Es hat 671 Milliarden Parameter und wiegt ungefähr 650 GB. Um sie auf diese Größe zu bringen, wurden die Prover V2-Gewichte auf acht-Bit-schwimmende Punktgenauigkeit quantisiert, was bedeutet, dass jeder Parameter so angenähert wurde, dass der halbe Raum der üblichen 16 Bits einbleibt. Dies halbiert effektiv die Masse des Modells.
So far, the improvements introduced by Prover V2 are unclear, as no research paper or other information has been published at the time of writing. The number of parameters in the Prover V2 weights suggests that it is likely to be based on the company’s previous R1 model. When it was first released, R1 made waves in the AI space with its performance comparable to the then state-of-the-art OpenAI’s o1 model.
Bisher sind die von dem Prover V2 eingeführten Verbesserungen unklar, da zum Zeitpunkt des Schreibens kein Forschungsarbeit oder andere Informationen veröffentlicht wurden. Die Anzahl der Parameter im Prover V2 -Gewicht legt nahe, dass es wahrscheinlich auf dem früheren R1 -Modell des Unternehmens basiert. Als es zum ersten Mal veröffentlicht wurde, machte R1 Wellen im KI-Raum, wobei seine Leistung mit dem damals hochmodernen Openai-O1-Modell vergleichbar war.
The importance of open weights
Die Bedeutung offener Gewichte
Publicly releasing the weights of LLMs is a controversial topic. On one side, it is a democratizing force that allows the public to access AI on their own terms without relying on private company infrastructure.
Die öffentlich freigesetzte Veröffentlichung der Gewichte von LLMs ist ein kontroverses Thema. Auf der einen Seite handelt es sich um eine demokratisierende Kraft, die es der Öffentlichkeit ermöglicht, zu ihren eigenen Bedingungen auf KI zuzugreifen, ohne sich auf die private Unternehmensinfrastruktur zu verlassen.
On the other side, it means that the company cannot step in and prevent abuse of the model by enforcing certain limitations on dangerous user queries. The release of R1 in this manner also raised security concerns, and some described it as China’s “Sputnik moment.”
Auf der anderen Seite bedeutet dies, dass das Unternehmen den Missbrauch des Modells nicht einsetzen und nicht verhindern kann, indem sie bestimmte Einschränkungen für gefährliche Benutzeranfragen durchsetzen. Die Veröffentlichung von R1 auf diese Weise brachte auch Sicherheitsbedenken auf, und einige beschrieben es als Chinas „Sputnik -Moment“.
Open source proponents rejoiced that DeepSeek continued where Meta left off with the release of its LLaMA series of open-source AI models, proving that open AI is a serious contender for OpenAI’s closed AI. The accessibility of those models is also constantly improving.
Open-Source-Befürworter freuten sich darüber, dass Deepseek mit der Veröffentlichung seiner Lama-Serie von Open-Source-KI-Modellen aufgehört hatte, und beweist, dass Open AI ein ernsthafter Anwärter auf Openais geschlossene KI ist. Die Zugänglichkeit dieser Modelle verbessert sich ebenfalls ständig.
Now, even users without access to a supercomputer that costs more than the average home in much of the world can run LLMs locally. This is primarily thanks to two AI development techniques: model distillation and quantization.
Selbst Benutzer ohne Zugriff auf einen Supercomputer, der mehr als das durchschnittliche Zuhause in weiten Teilen der Welt kostet, können LLMs lokal laufen. Dies ist in erster Linie zwei KI -Entwicklungstechniken zu verdanken: Modelldestillation und Quantisierung.
Distillation refers to training a compact “student” network to replicate the behavior of a larger “teacher” model, so you keep most of the performance while cutting parameters to make it accessible to less powerful hardware. Quantization consists of reducing the numeric precision of a model’s weights and activations to shrink size and boost inference speed with only minor accuracy loss.
Die Destillation bezieht sich auf die Schulung eines kompakten „Schüler“ -Netzwerks, um das Verhalten eines größeren „Lehrer“ -Modells zu replizieren. Daher behalten Sie den größten Teil der Leistung bei und schneiden gleichzeitig Parameter, um es weniger leistungsstarke Hardware zugänglich zu machen. Die Quantisierung besteht darin, die numerische Präzision der Gewichte und Aktivierungen eines Modells zu verringern, um die Größe zu verkleinern und die Inferenzgeschwindigkeit mit nur geringfügiger Genauigkeitsverlust zu steigern.
An example is Prover V2’s reduction from 16 to eight-bit floating point numbers, but further reductions are possible by halving bits further. Both of those techniques have consequences for model performance, but usually leave the model largely functional.
Ein Beispiel ist die Reduktion von Prover V2 von 16 auf acht Bit schwimmende Punktzahlen, aber weitere Reduktionen sind durch weiterhin weiterhin halbbits möglich. Beide Techniken haben Konsequenzen für die Modellleistung, lassen das Modell jedoch normalerweise weitgehend funktionsfähig.
DeepSeek’s R1 was distilled into versions with retrained LLaMA and Qwen models ranging from 70 billion parameters to as low as 1.5 billion parameters. The smallest of those models can even reliably be run on some mobile devices.output: Publicly releasing the weights of large language models (LLMs) is a hotly debated topic. On one side of the argument, it is a democratizing force that allows the public to access AI on their own terms without relying on private company infrastructure. On the other side, it means that the company cannot step in and prevent abuse of the model by enforcing certain limitations on dangerous user queries.
Deepseeks R1 wurde in Versionen mit abgeschriebenen Lama- und QWEN -Modellen von 70 Milliarden Parametern bis zu 1,5 Milliarden Parametern destilliert. Das kleinste dieser Modelle kann auf einigen mobilen Geräten sogar zuverlässig ausgeführt werden. Output: Das öffentliche Verlassen der Gewichte von großartigen Modellen (LLMs) ist ein heiß diskutiertes Thema. Auf einer Seite des Arguments handelt es sich um eine demokratisierende Kraft, die es der Öffentlichkeit ermöglicht, zu ihren eigenen Bedingungen auf KI zuzugreifen, ohne sich auf die private Unternehmensinfrastruktur zu verlassen. Auf der anderen Seite bedeutet dies, dass das Unternehmen den Missbrauch des Modells nicht einsetzen und nicht verhindern kann, indem sie bestimmte Einschränkungen für gefährliche Benutzeranfragen durchsetzen.
Those who follow the artificial intelligence (AI) landscape closely will recall the fuss that ensued when DeepSeek, a leading Chinese AI development company, released its R1 LLM with 1.5 trillion parameters. The model, which achieved performance comparable to OpenAI’s o1, was made available on the Hugging Face hosting service with the permissive MIT license.
Diejenigen, die die Landschaft der künstlichen Intelligenz (KI) folgen, werden sich genau an die Aufregung erinnern, die sich daraus ergeben, als Deepseek, ein führendes chinesisches KI -Entwicklungsunternehmen, sein R1 LLM mit 1,5 Billionen Parametern veröffentlichte. Das Modell, das mit der O1 von OpenAI vergleichbar erzielt wurde, wurde im Umarmungs -Face -Hosting -Service mit der zulässigen MIT -Lizenz zur Verfügung gestellt.
The release of R1 sparked a great deal of discussion in both the technical and economic spheres, with some comparing it to a “Sputnik moment” for China in the AI race. It also prompted a response from OpenAI, which announced that it would be releasing the weights of its own models in
Die Veröffentlichung von R1 löste sowohl in den technischen als auch in den wirtschaftlichen Bereichen viel Diskussion aus, wobei einige es mit einem „Sputnik -Moment“ für China im KI -Rennen verglichen hatten. Es führte auch zu einer Antwort von OpenAI aus
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- MGX wird einen US-Präsidenten Donald Trump im Zusammenhang mit Stablecoin erschließen, um seine Investition von 2 Milliarden US-Dollar in Binance zu begleichen
- May 01, 2025 at 07:05 pm
- Der US-amerikanische US-Dollar-Dollar-Financial Financial USD Stablecoin wurde im März 2025 von der Trump-Linked World Liberty Financial (WLFI) -Plattform (WLFI) gestartet.
-
-
-
- Worldcoin startet in sechs US -Städten und bietet den Benutzern WLD -Token an
- May 01, 2025 at 07:00 pm
- Worldcoin, die Initiative Digital Identity and Cryptocurrency, die von Sam Altman, CEO von OpenAi, mitbegründet wurde, hat im Rahmen seiner landesweiten Expansion in sechs großen US-Städten Operationen eingeführt.
-
- USD1 Stablecoin als offizieller Stablecoin ausgewählt, um die 2 -Milliarden -Dollar -Investition von MGX in Binance zu schließen
- May 01, 2025 at 06:55 pm
- Eric Trump, Sohn von US -Präsident Donald Trump, sagte, dass der Dollar von World Liberty Financial Stablecoin (USD1) offiziell als offizieller Stablecoin ausgewählt wurde
-
-
-
-
- MEXC Ventures enthüllt einen 300 -Millionen -Dollar -Ökosystementwicklungsfonds, um die Blockchain -Innovation zu beschleunigen
- May 01, 2025 at 06:45 pm
- Victoria, Seychellen, 1. Mai 2025 / PRNewswire / - MEXC Ventures, der Investitionszweig des Global Cryptocurrency Exchange MEXC, hat in den nächsten fünf Jahren einen 300 -Millionen -Dollar -Ökosystementwicklungsfonds für die Beschleunigung der Blockchain -Innovation und des Ökosystemwachstums vorgestellt.