![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Durch die Änderung eines einzelnen Charakters können Forscher LLMS -Sicherheits- und Inhalts Moderationspukern umgehen
Jun 12, 2025 at 10:13 pm
Cybersecurity -Forscher haben eine neuartige Angriffstechnik namens Tokenbreak entdeckt, mit der die Sicherheits- und Inhalts -Moderationspulen der LLM -Messgeräte (LLM) der großen Sprache umgehen können
Cybersecurity researchers at HiddenLayer have discovered a novel attack technique called TokenBreak that can be used to bypass a large language model's (LLM) safety and content moderation guardrails with just a single character change.
Cybersecurity -Forscher von HiddenLayer haben eine neuartige Angriffstechnik namens Tokenbreak entdeckt, mit der die Sicherheits- und Inhalts -Moderation -Leitplanken mit nur einer einzelnen Charakteränderung umgehen können.
The finding, which was shared with The Hacker News, builds on prior work by the researchers, who in June found that it’s possible to exploit Model Context Protocol (MCP) tools to extract sensitive data.
Der Befund, der mit den Hacker News geteilt wurde, baut auf früheren Arbeiten der Forscher auf, die im Juni festgestellt haben, dass es möglich ist, das Modellkontext -Protokoll (MCP) auszunutzen, um sensible Daten zu extrahieren.
"By inserting specific parameter names within a tool's function, sensitive data, including the full system prompt, can be extracted and exfiltrated," HiddenLayer said.
"Durch das Einsetzen spezifischer Parameternamen in die Funktion eines Tools können empfindliche Daten, einschließlich der vollständigen Systemaufforderung, extrahiert und ein Exfiltrated", sagte HiddenLayer.
The finding also comes as the Straiker AI Research (STAR) team found that backronyms can be used to jailbreak AI chatbots and trick them into generating an undesirable response, including swearing, promoting violence, and producing sexually explicit content.
Das Ergebnis kommt auch, als das Star -Team von Straiker AI Research (Star) feststellte, dass Backronyme verwendet werden können, um AI -Chatbots zu jailbreak und sie dazu zu bringen, eine unerwünschte Reaktion zu erzeugen, einschließlich Fluchen, Förderung von Gewalt und Erzeugung sexuell explizite Inhalte.
The technique, called the Yearbook Attack, has proven to be effective against various models from Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI, and OpenAI.
Die Technik, die als Jahrbuchangriff genannt wird, hat sich als wirksam gegen verschiedene Modelle von Anthropic, Deepseek, Google, Meta, Microsoft, Mistral AI und OpenAI erwiesen.
"They blend in with the noise of everyday prompts — a quirky riddle here, a motivational acronym there — and because of that, they often bypass the blunt heuristics that models use to spot dangerous intent."
"Sie mischen sich in das Geräusch alltäglicher Aufforderungen - ein schrulliges Rätsel hier, ein motivierendes Akronym dort - und aus diesem Grund umgehen sie oft die stumpfe Heuristik, die Modelle verwenden, um gefährliche Absichten zu erkennen."
A phrase like 'Friendship, unity, care, kindness' doesn't raise any flags. But by the time the model has completed the pattern, it has already served the payload, which is the key to successfully executing this trick."
Ein Satz wie "Freundschaft, Einheit, Fürsorge, Freundlichkeit" erhöht keine Flaggen. Zu dem Zeitpunkt, als das Modell das Muster abgeschlossen hat, hat es bereits die Nutzlast erhalten, was der Schlüssel zur erfolgreichen Ausführung dieses Tricks ist. "
"These methods succeed not by overpowering the model's filters, but by slipping beneath them. They exploit completion bias and pattern continuation, as well as the way models weigh contextual coherence over intent analysis."
"Diese Methoden gelingt nicht, indem sie die Filter des Modells überwältigen, sondern unter ihnen rutschen. Sie nutzen die Vervollständigung von Voreingenommenheit und Musterdauer sowie die Art und Weise, wie Modelle die kontextbezogene Kohärenz über die Absichtsanalyse abwägen."
The TokenBreak attack targets a text classification model's tokenization strategy to induce false negatives, leaving end targets vulnerable to attacks that the implemented protection model was put in place to prevent.
Der Tokenbreak -Angriff zielt auf die Tokenisierungsstrategie eines Textklassifizierungsmodells ab, um falsche Negative zu induzieren, und die Endziele anfällig für Angriffe, die das implementierte Schutzmodell eingerichtet wurde, um sie zu verhindern.
Tokenization is a fundamental step that LLMs use to break down raw text into their atomic units – i.e., tokens – which are common sequences of characters found in a set of text. To that end, the text input is converted into their numerical representation and fed to the model.
Tokenisierung ist ein grundlegender Schritt, den LLMs verwenden, um Rohtext in ihre Atomeinheiten - dh Tokens -, die gemeinsame Sequenzen von Zeichen in einer Reihe von Text sind, aufzuteilen. Zu diesem Zweck wird der Texteingang in ihre numerische Darstellung umgewandelt und dem Modell gespeist.
LLMs work by understanding the statistical relationships between these tokens, and produce the next token in a sequence of tokens. The output tokens are detokenized to human-readable text by mapping them to their corresponding words using the tokenizer's vocabulary.
LLMs wirken, indem sie die statistischen Beziehungen zwischen diesen Token verstehen und das nächste Token in einer Abfolge von Token produzieren. Die Ausgangs-Token werden in den menschlich-lesbaren Text festgelegt, indem sie mit dem Wortschatz des Tokenizers auf ihre entsprechenden Wörter abgebildet werden.
The attack technique devised by HiddenLayer targets the tokenization strategy to bypass a text classification model's ability to detect malicious input and flag safety, spam, or content moderation-related issues in the textual input.
Die von HiddenLayer entwickelte Angriffstechnik zielt auf die Tokenisierungsstrategie ab, um die Fähigkeit eines Textklassifizierungsmodells zu umgehen, böswillige Eingaben und Fahnen von Sicherheit, SPAM- oder Inhalts-Moderationsproblemen in den Texteingaben zu erkennen.
Specifically, the artificial intelligence (AI) security firm found that altering input words by adding letters in certain ways caused a text classification model to break.
Insbesondere das Sicherheitsunternehmen für künstliche Intelligenz (KI) stellte fest, dass die Änderung von Eingabemitteln durch Hinzufügen von Buchstaben auf bestimmte Weise ein Textklassifizierungsmodell zum Brechen führte.
Examples include changing "instructions" to "finstructions," "announcement" to "aannouncement," or "idiot" to "hidiot." These subtle changes cause different tokenizers to split the text in different ways, while still preserving their meaning for the intended target.
Beispiele hierfür sind das Ändern von "Anweisungen" in "Finstruktionen", "Ankündigung" in "aAnouncement" oder "Idiot" zu "Hidiot". Diese subtilen Veränderungen führen zu unterschiedlichen Rowarenisatoren, um den Text auf unterschiedliche Weise aufzuteilen und gleichzeitig ihre Bedeutung für das beabsichtigte Ziel zu erhalten.
What makes the attack notable is that the manipulated text remains fully understandable to both the LLM and the human reader, causing the model to elicit the same response as what would have been the case if the unmodified text had been passed as input.
Was den Angriff bemerkenswert macht, ist, dass der manipulierte Text sowohl für die LLM als auch für den menschlichen Leser vollständig verständlich bleibt, was dazu führt, dass das Modell dieselbe Antwort wie der Fall gewesen wäre, wenn der nicht modifizierte Text als Eingabe übergeben worden wäre.
By introducing the manipulations in a way without affecting the model's ability to comprehend it, TokenBreak increases its potential for prompt injection attacks.
Durch die Einführung der Manipulationen auf eine Weise, ohne die Fähigkeit des Modells zu verstehen, sie zu verstehen, erhöht Tokenbreak das Potenzial für schnelle Injektionsangriffe.
"This attack technique manipulates input text in such a way that certain models give an incorrect classification," the researchers said in an accompanying paper. "Importantly, the end target (LLМ or email recipient) can still understand and respond to the manipulated text and therefore be vulnerable to the very attack the implemented protection model was put in place to prevent."
"Diese Angriffstechnik manipuliert Eingabetext so, dass bestimmte Modelle eine falsche Klassifizierung angeben", sagten die Forscher in einem begleitenden Papier. "Wichtig ist, dass das Endziel (LLм- oder E -Mail -Empfänger) den manipulierten Text immer noch verstehen und darauf reagieren und daher anfällig für den Angriff ist, das das implementierte Schutzmodell eingerichtet wurde, um sie zu verhindern."
The attack has been found to be successful against text classification models using BPE (Byte Pair Encoding) or WordPiece tokenization strategies, but not against those using Unigram.
Es wurde festgestellt, dass der Angriff gegen Textklassifizierungsmodelle mit BPE (Bytepaar -Kodierung) oder Wortstück -Tokenisierungsstrategien erfolgreich ist, jedoch nicht gegen diejenigen, die Unigram verwenden.
"The TokenBreak attack technique demonstrates that these protection models can be bypassed by manipulating the input text, leaving production systems vulnerable," the researchers said. "Knowing the family of the underlying protection model and its tokenization strategy is critical for understanding your susceptibility to this attack."
"Die Tokenbreak -Angriffstechnik zeigt, dass diese Schutzmodelle durch Manipulation des Eingabetxtes umgangen werden können und Produktionssysteme anfällig bleiben", sagten die Forscher. "Die Familie des zugrunde liegenden Schutzmodells und seiner Tokenisierungsstrategie zu kennen, ist entscheidend, um Ihre Anfälligkeit für diesen Angriff zu verstehen."
"Because tokenization strategy typically correlates with model family, a straightforward mitigation exists: Select models that use Unigram tokenizers."
"Da die Tokenisierungsstrategie typischerweise mit der Modellfamilie korreliert, gibt es eine einfache Minderung: Wählen Sie Modelle aus, die Unigram -Tokenizer verwenden."
To defend against TokenBreak, the researchers suggest using Unigram tokenizers when possible, training models with examples of bypass tricks, and checking that tokenization and model logic stays aligned. It also helps to log misclassifications and look for patterns that hint at manipulation.
Um sich gegen Tokenbreak zu verteidigen, schlagen die Forscher vor, wenn möglich Unigram -Tokenizer zu verwenden, Schulungsmodelle mit Beispielen für Bypass -Tricks und die Überprüfung dieser Tokenisierung und der Modelllogik bleiben ausgerichtet. Es hilft auch, Fehlklassifizierungen zu protokollieren und nach Mustern zu suchen, die auf die Manipulation hinweisen.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- Das Berufungsgericht des Vereinigten Königreichs lehnt einen Großteil einer Sammelklage von 13,3 Milliarden US -Dollar gegen Crypto Exchange Binance ab
- Jun 14, 2025 at 09:15 am
- Es folgt dem Berufungsgericht von England und Wales 'Entlassung (10 Seiten/190 KB) des Großteils einer Sammelklage von 13,3 Milliarden US -Dollar gegen Crypto Exchange Binance.
-
-
-
-
-
- Krypto -Ruhestand: Targeting 3x Returns mit Bitcoin und anderen digitalen Assets
- Jun 14, 2025 at 09:05 am
- Der althergende Rat für ältere Menschen, die sich dem Ruhestand nähern, besteht darin, Ihre Exposition gegenüber riskanten Vermögenswerten zu verringern, um Ihr Nestei zu erhalten. Aber was ist, wenn Ihr Nest-Ei bereits zerstört wurde und Sie eine Methode mit hohem Risiko/hoher Rendite benötigen, um alles in den Ruhestand von ein paar Jahren zurückzubilden, damit Sie bequem in den Ruhestand gehen können?
-
-
- Zwei Krypto -Namen beleuchten Investor Watchlists für 2025: Ripple's XRP und ein aufstrebendes AI -Token, Ozak AI.
- Jun 14, 2025 at 09:00 am
- Während XRP-Bullen auf einen lang erwarteten Ausbruch auf 5 US-Dollar abzielen, beobachten frühe Investoren das Potenzial von Ozak AI, sich von seinem aktuellen Preis von 0,05 USD auf 1 USD zu erhöhen
-
- Punisher Coin ($ Pun) erstreckt sich über die Marke von 150.000 US
- Jun 14, 2025 at 08:55 am
- Mit einer Mischung aus interaktiven Missionen, Token-Verbrennungen und großzügigen Überweisungsboni ist Punisher Coin ($ Pun) nicht nur nach Trend, sondern es ist darauf abzielt, eine nachhaltige, wertrohe Gemeinschaft aufzubauen.