(PHP 4, PHP 5, PHP 7)
htmlspecialchars — Wandelt Sonderzeichen in HTML-Codes um
$string
[, int $flags
= ENT_COMPAT | ENT_HTML401
[, string $encoding
= ini_get("default_charset")
[, bool $double_encode
= TRUE
]]] ) : stringBestimmte Zeichen haben in HTML eine spezielle Bedeutung und sollten in HTML-Code dargestellt werden, um ihre Bedeutung zu behalten. Diese Funktion liefert einen String zurück, in dem diese Konvertierungen durchgeführt wurden. Ist es erforderlich, dass alle Eingabeteilzeichenketten, die zugeordnete benannte Entities haben, übersetzt werden, sollten Sie stattdessen htmlentities() verwenden.
Wenn die Eingabezeichenkette, die dieser Funktion übergeben wird, und das endgültige Dokument den gleichen Zeichensatz haben, ist diese Funktion ausreichend um Eingaben für die meisten Kontexte eines HTML-Dokuments vorzubereiten. Wenn allerdings die Eingabe Zeichen repräsentieren kann, die nicht im Zeichensatz des endgültigen Dokuments kodiert sind, und Sie wünschen diese Zeichen zu erhalten (als numerische oder benannte Entities), kann sowohl diese Funktion wie auch htmlentities() (die nur Teilzeichenketten, die benannte Entity-Entsprechungen haben, kodiert) ungenügend sein. Sie müssen u.U. mb_encode_numericentity() stattdessen verwenden.
Zeichen | Ersetzung |
---|---|
& (Kaufmanns-Und) | & |
" (doppeltes Anführungszeichen) |
", falls ENT_NOQUOTES
nicht gesetzt ist
|
"'" (einfaches Anführungszeichen) |
' (für ENT_HTML401 ) oder
' (für
ENT_XML1 , ENT_XHTML oder
ENT_HTML5 ), aber nur wenn
ENT_QUOTES gesetzt ist
|
< (kleiner als) | < |
> (gößer als) | > |
string
Die zu konvertierende Zeichenkette.
flags
Eine Bitmaske von einem oder mehreren der folgenden Flags, die die Behandlung von Anführungszeichen, ungültigen Zeichenfolgen und den genutzten Dokumententyp festlegen. Der Standardwert ist ENT_COMPAT | ENT_HTML401.
Konstante | Beschreibung |
---|---|
ENT_COMPAT |
Konvertiert nur doppelte Anführungszeichen und lässt einfache Anführungszeichen unverändert. |
ENT_QUOTES |
Konvertiert sowohl doppelte als auch einfache Anführungszeichen. |
ENT_NOQUOTES |
Lässt doppelte und einfache Anführungszeichen unverändert. |
ENT_IGNORE |
Verwirft ungültige Code Unit Sequenzen anstatt eine leere Zeichenkette zurückzugeben. Die Nutzung dieser Option ist nicht empfehlenswert, da sie » Auswirkungen auf die Sicherheit haben kann. |
ENT_SUBSTITUTE |
Ersetzt ungültige Code Unit Sequenzen mit einem Unicode Ersatz Zeichen U+FFFD (UTF-8) oder � (andernfalls) anstatt eine leere Zeichenkette zurückzugeben. |
ENT_DISALLOWED |
Ersetzt Codepoints, welche in dem angegebenen Dokumenttyp ungültig sind, mit einem Unicode Ersatz Zeichen U+FFFD (UTF-8) oder � (andernfalls), anstatt sie zu belassen. Das kann zum Beispiel nützlich sein, um die Wohlgeformtheit von XML-Dokumenten mit eingebetteten externen Inhalten sicherzustellen. |
ENT_HTML401 |
Behandle Code als HTML 4.01. |
ENT_XML1 |
Behandle Code als XML 1. |
ENT_XHTML |
Behandle Code als XHTML. |
ENT_HTML5 |
Behandle Code als HTML 5. |
charset
Ein optionaler Parameter, der die Zeichenkodierung für eine Konvertierung definiert.
Wird dieser Parameter ausgelassen, so wird der Standardwert für encoding
verwendet, welcher von der verwendeten PHP-Version abhängig ist. In PHP 5.6 und neuer wird
die Konfigurationseinstellung default_charset als
Standardwert verwendet. PHP 5.4 und 5.5. verwenden UTF-8 als Standardwert.
Frühere Versionen verwenden ISO-8859-1.
Obwohl dieser Parameter technisch optional ist wird es stark empfohlen den korrekten Wert für den jeweiligen Programmcode zu spezifizieren, falls sie PHP 5.5 oder früher verwenden, oder falls default_charset für die jeweilige Eingabe inkorrekt sein könnte.
Für den Gebrauch dieser Funktion sind die Zeichenkodierungen
ISO-8859-1, ISO-8859-15,
UTF-8, cp866,
cp1251, cp1252 und
KOI8-R tatsächlich äquivalent, vorausgesetzt der
string
selbst ist gültig in der
Zeichenkodierung, da die von
htmlspecialchars() betroffenen Zeichen in allen
genannten Zeichenkodierungen an gleicher Position stehen.
Die folgenden Zeichensätze werden unterstützt:
Zeichensatz | Alias | Beschreibung |
---|---|---|
ISO-8859-1 | ISO8859-1 | Westeuropäisch, Latin-1. |
ISO-8859-5 | ISO8859-5 | Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic). |
ISO-8859-15 | ISO8859-15 | Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen. |
UTF-8 | ASCII-kompatibles Multi-Byte 8-Bit Unicode. | |
cp866 | ibm866, 866 | DOS-spezifischer kyrillischer Zeichensatz. |
cp1251 | Windows-1251, win-1251, 1251 | Windows-spezifischer kyrillischer Zeichensatz. |
cp1252 | Windows-1252, 1252 | Windows spezifischer Zeichensatz für westeuropäische Sprachen. |
KOI8-R | koi8-ru, koi8r | Russisch. |
BIG5 | 950 | Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet. |
GB2312 | 936 | Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz. |
BIG5-HKSCS | Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch. | |
Shift_JIS | SJIS, SJIS-win, cp932, 932 | Japanisch |
EUC-JP | EUCJP, eucJP-win | Japanisch |
MacRoman | Zeichensatz, der von Mac OS verwendet wurde. | |
'' | Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert. |
Hinweis: Weitere Zeichensätze sind nicht implementiert. Statt dessen wird die Standard-Kodierung verwendet und eine Warnung ausgegeben.
double_encode
Wird der Parameter double_encode
ausgeschaltet,
kodiert PHP bereits existierende HTML-Entities nicht noch einmal.
Standardmäßig werden jedoch alle Zeichen konvertiert.
Der konvertierte string.
Enthält der string
eine in dem übergebenen
encoding
ungültige Code Unit Sequenz, wird eine
leere Zeichenkette zurückgegeben, sofern weder das ENT_IGNORE
noch das ENT_SUBSITUTE
Flag gesetzt sind.
Version | Beschreibung |
---|---|
5.6.0 |
Der Standardwert für den Parameter encoding wurde
so angepasst, dass dieser Wert aus der Konfigurationseinstellung
default_charset bezogen wird.
|
5.4.0 |
Der Standardwert für encoding wurde
zu UTF-8 geändert.
|
5.4.0 |
Die Konstanten ENT_SUBSTITUTE , ENT_DISALLOWED ,
ENT_HTML401 , ENT_XML1 ,
ENT_XHTML
und ENT_HTML5 wurden hinzugefügt.
|
5.3.0 |
Die Konstante ENT_IGNORE wurde hinzugefügt.
|
5.2.3 |
Der Parameter double_encode wurde hinzugefügt.
|
Beispiel #1 htmlspecialchars()-Beispiel
<?php
$neu = htmlspecialchars("<a href='test'>Test</a>", ENT_QUOTES);
echo $neu; // <a href='test'>Test</a>
?>
Hinweis:
Beachten Sie, dass diese Funktion nur die o.a. Umwandlungen durchführt. Für vollständige Code-Umwandlung verwenden Sie bitte htmlentities().
Hinweis:
Im Fall von mehrdeutigen
flags
-Werten, gelten die folgenden Regeln:
- Wird weder
ENT_COMPAT
,ENT_QUOTES
oderENT_NOQUOTES
angegeben, ist der StandardwertENT_NOQUOTES
.- Werden mehrere von
ENT_COMPAT
,ENT_QUOTES
undENT_NOQUOTES
angegeben, erhältENT_QUOTES
den Vorrang, gefolgt vonENT_COMPAT
.- Wird weder
ENT_HTML401
,ENT_HTML5
,ENT_XHTML
nochENT_XML1
angegeben, ist der StandardwertENT_HTML401
.- Werden mehrere von
ENT_HTML401
,ENT_HTML5
,ENT_XHTML
undENT_XML1
angegeben, erhältENT_HTML5
den Vorrang, gefolgt vonENT_XHTML
,ENT_XML1
undENT_HTML401
.- When more than one of
ENT_DISALLOWED
,ENT_IGNORE
,ENT_SUBSTITUTE
are present,ENT_IGNORE
takes the highest precedence, followed byENT_SUBSTITUTE
.