Kodierung von Zeichen

Zeichenkodierung

Wir haben gelernt, dass ein Computer Daten als eine Folge von 1en und 0en speichern muss, um mit ihnen arbeiten zu können.

Neben Zahlen sollen Computer auch in der Lage sein, Texte und Sonderzeichen verarbeiten zu können. Abhängig von der natürlichen Sprache eines Anwenders können diese mitunter sehr zahlreich sein. Wir nutzen zum Beispiel Zeichen wie: ö, ä oder ü. Aber um auch sehr komplexe Zeichenfolgen, wie beispielsweise asiatische Schriften für einen Computer verarbeitbar zu machen, wurden diverse Zeichensätze zur Kodierung entworfen.
Ein solcher Zeichensatz weist einem bestimmten Buchstaben oder Zeichen eine einzigartige Bitfolge zu, um diesen fehlerfrei wiedergeben zu können.

Zur Geschichte: Historisch gesehen, lassen sich erste Anwendungen von Kodierungen bis in die Antike zurückverfolgen. So informierte beispielsweise Agamemnon seine Armee von einem Schiff aus durch das Nutzen einer Fackel darüber, die Invasion Trojas zu starten.
Weitere bekannte Beispiele sind die Rauchzeichen der Indianer oder die Nachrichtenübermittlung bestimmter afrikanischer Stämme durch Trommeln. Im Laufe der Jahrhunderte wurde Kodierung hauptsächlich durch die Schifffahrt weiterentwickelt und spätestens mit der Erfindung des Morsecodes wurde der Grundstein für die moderne Kodierung gelegt.

Es gibt mehrere Zeichensätze, die sich im Umfang der kodierten Zeichen, unterscheiden, sowie in der Länge der Bitfolge, welche dem Zeichen zugeordnet ist.
Je länger die Bitfolge, desto mehr Zeichen können mit dem Zeichensatz kodiert werden.

Beispiele für Zeichensätze sind:

  • ASCII (7 Bit)
  • UTF-8 (8 Bit)
  • UTF-16 (16 Bit)
  • UTF-32 (32 Bit)
  • ISO 8859-1 (8 Bit)
  • Windows-1252 Western European (8 Bit)


Zeichen können mit Hilfe von Zeichentabellen kodiert bzw. dekodiert werden.
Hierzu wird in der Zeichentabelle die zum Zeichen zugehörige Bitfolge "nachgeschaut".
In die andere Richtung wird in der Zeichentabelle "nachgeschaut", welches Zeichen zur entsprechenden Bitfolge gehört.

Auf den ASCII-Zeichensatz wird im Unterkapitel genauer eingegangen.

 


Hast du nun verstanden, warum in dem Text oben so komische Rauten mit Fragezeichen waren?
Nun ja, wenn der Text aus einer Internetseite (HTML) stammt, dann unterstützt diese wohl nicht unsere ü's, ä's oder ö's. Da hat der Seitenentwickler nicht den richtigen Zeichensatz angegeben...und schon ist es passiert. Denn es ist nicht selbstverständlich, dass immer alles richtig dargestellt wird.
Solltest du zum Beispiel die Wahlpflichtveranstaltung Web-Programmierung wählen, dann wirst du damit konfrontiert werden.

IDevice Icon

Tipps