# Zeichen, Strings und Unicode

## Zeichencodierungen (Fr√ºhgeschichte)

Es gab - abh√§ngig von Hersteller, Land, Programmiersprache, Betriebsssystem,... - eine gro√üe Vielzahl von Codierungen. 

Bis heute relevant sind:


### ASCII 
Der _American Standard Code for Information Interchange_ wurde 1963 in den USA als Standard ver√∂ffentlicht. 

- Er definiert $2^7=128$ Zeichen, und zwar:  
  - 33 Steuerzeichen, wie `newline`, `escape`, `end of transmission/file`, `delete`
  - 95 graphisch darstellbare Zeichen:
    - 52 lateinische Buchstaben `a-z, A-Z`
    - 10 Ziffern `0-9`
    -  7 Satzzeichen `.,:;?!"`
    - 1 Leerzeichen  ` `
    - 6 Klammern  `[{()}]`
    - 7 mathematische Operationen `+-*/<>=`
    - 12 Sonderzeichen ``` #$%&'\^_|~`@ ``` 

- ASCII ist heute noch der "kleinste gemeinsame Nenner" im Codierungs-Chaos.
- Die ersten 128 Unicode-Zeichen sind identisch mit ASCII.

### ISO 8859-Zeichens√§tze

- ASCII nutzt nur 7 Bits. 
- In einem Byte kann man durch Setzen des 8. Bits weitere 128 Zeichen unterbringen. 
- 1987/88 wurden im ISO 8859-Standard verschiedene 1-Byte-Codierungen festgelegt, die alle ASCII-kompatibel sind, darunter:

:::{.narrow}
  |Codierung | Region  | Sprachen|
  |:-----------|:----------|:-------|
   |ISO 8859-1 (Latin-1)  |  Westeuropa | Deutsch, Franz√∂sisch,...,Isl√§ndisch
   |ISO 8859-2 (Latin-2)  |  Osteuropa  | slawische Sprachen mit lateinischer Schrift
   |ISO 8859-3 (Latin-3)  | S√ºdeuropa   | T√ºrkisch, Maltesisch,...
   |ISO 8859-4 (Latin-4)  | Nordeuropa  | Estnisch, Lettisch, Litauisch, Gr√∂nl√§ndisch, Sami
   |ISO 8859-5 (Latin/Cyrillic) | Osteuropa | slawische Sprachen mit kyrillischer Schrift
   |ISO 8859-6 (Latin/Arabic) | |
   |ISO 8859-7 (Latin/Greek)  | |
   |...| | 
   |ISO 8859-15 (Latin-9)| | 1999: Revision von Latin-1: jetzt mit Euro-Zeichen!  
   
:::
   
## Unicode    

Das Ziel des Unicode-Consortiums ist eine einheitliche Codierung f√ºr alle Schriften der Welt.

- Unicode Version 1 erschien 1991
- Unicode Version 15 erschien 2021 mit 149 186 Zeichen (das sind 4489 mehr als Unicode 14), darunter: 
   - 161 Schriften 
   - mathematische und technische Symbole
   - Emojis und andere Symbole, Steuer- und Formatierungszeichen
- davon entfallen √ºber 90 000 Zeichen auf die CJK-Schriften (Chinesisch/Japanisch/Koreanisch)     
   
   
### Technische  Details

- Jedem Zeichen wird ein `codepoint` zugeordnet. Das ist einfach eine fortlaufende Nummer.
- Diese Nummer wird hexadezimal notiert
   - entweder 4-stellig als `U+XXXX` (0-te Ebene) 
   - oder 5...6-stellig als `U+XXXXXX`  (weitere Ebenen)
- Jede Ebene geht von `U+XY0000`  bis `U+XYFFFF`, kann also $2^{16}=65\;534$ Zeichen enthalten.    
- Vorgesehen sind bisher 17 Ebenen `XY=00` bis `XY=10`, also der  Wertebereich von `U+0000` bis `U+10FFFF`.
- Damit sind maximal 21 Bits pro Zeichen n√∂tig.
- Die Gesamtzahl der damit m√∂glichen Codepoints ist etwas kleiner als 0x10FFFF, da aus technischen Gr√ºnden gewisse Bereiche nicht verwendet werden. Sie betr√§gt etwa 1.1 Millionen, es ist also noch viel Platz. 
- Bisher wurden nur Codepoints aus den Ebenen 
     - Ebene 0 = BMP _Basic Multilingual Plane_  `U+0000 - U+FFFF`,
     - Ebene 1 = SMP _Supplementary Multilingual Plane_  `U+010000 - U+01FFFF`,
     - Ebene 2 = SIP _Supplementary Ideographic Plane_    `U+020000 - U+02FFFF`, 
     - Ebene 3 = TIP _Tertiary Ideographic Plane_     `U+030000 - U+03FFFF`   und
     - Ebene 14 = SSP _Supplementary Special-purpose Plane_ `U+0E0000 - U+0EFFFF` vergeben.
- `U+0000` bis `U+007F` ist identisch mit ASCII
- `U+0000` bis `U+00FF` ist identisch mit ISO 8859-1 (Latin-1)

### Eigenschaften von Unicode-Zeichen

Im Standard wird jedes Zeichen beschrieben duch

  - seinen Codepoint (Nummer) 
  - einen Namen (welcher nur aus ASCII-Gro√übuchstaben, Ziffern und Minuszeichen besteht) und 
  - verschiedene Attributen wie
    - Laufrichtung der Schrift 
    - Kategorie: Gro√übuchstabe, Kleinbuchstabe, modifizierender Buchstabe, Ziffer, Satzzeichen, Symbol, Seperator,....

Im Unicode-Standard sieht das dann so aus (zur Vereinfachung nur Codepoint und Name):
```
...
U+0041 LATIN CAPITAL LETTER A
U+0042 LATIN CAPITAL LETTER B
U+0043 LATIN CAPITAL LETTER C
U+0044 LATIN CAPITAL LETTER D
...
U+00E9 LATIN SMALL LETTER E WITH ACUTE
U+00EA LATIN SMALL LETTER E WITH CIRCUMFLEX
...
U+0641 ARABIC LETTER FEH
U+0642 ARABIC LETTER QAF
...
U+21B4 RIGHTWARDS ARROW WITH CORNER DOWNWARDS
...
```

Wie sieht 'RIGHTWARDS ARROW WITH CORNER DOWNWARDS' aus?


In [None]:
'\U21b4'

### Eine Auswahl an Schriften 

::: {.content-visible when-format="html"}

:::{.callout-note}
Falls im Folgenden einzelne Zeichen oder Schriften in Ihrem Browser nicht darstellbar sind, m√ºssen Sie geeignete 
Fonts auf Ihrem Rechner installieren. 

Alternativ k√∂nnen Sie die PDF-Version dieser Seite verwenden. Dort sind alle Fonts eingebunden.
:::

:::

Eine kleine Hilfsfunktion:


In [None]:
"""
printuc(c, n):
print n characters from unicode table, starting with character c 
"""
function printuc(c, n)
    for i in 0:n-1
        print(c + i)
    end
end

__Kyrillisch__


In [None]:
printuc('\U0400', 100)

__Tamilisch__

:::{.cellmerge}


In [None]:
#| echo: true
#| output: false
printuc('\U0be7',20)

\begingroup\setmonofont{Noto Sans Tamil}


In [None]:
#| echo: false
#| output: true
printuc('\U0be7',20)

\endgroup

:::

__Schach__


In [None]:
printuc('\U2654', 12)

__Mathematische Operatoren__


In [None]:
printuc('\U2200', 255)

__Runen__


In [None]:
printuc('\U16a0', 40)

:::{.cellmerge}

__Scheibe (Diskus) von Phaistos__

- Diese Schrift ist nicht entziffert. 
- Es ist unklar, welche Sprache dargestellt wird.
- Es gibt nur ein einziges Dokument in dieser Schrift: die Tonscheibe von Phaistos aus der Bronzezeit 


In [None]:
#| echo: true
#| output: false
printuc('\U101D0', 46 )

\begingroup\setmonofont{Phaistos.otf}


In [None]:
#| echo: false
#| output: true
printuc('\U101D0', 46 )

\endgroup

:::

### Unicode transformation formats: UTF-8, UTF-16, UTF-32

_Unicode transformation formats_ legen fest, wie eine Folge von Codepoints als eine Folge von Bytes dargestellt wird. 

Da die Codepoints unterschiedlich lang sind, kann man sie nicht einfach hintereinander schreiben. Wo h√∂rt einer auf und f√§ngt der n√§chste an? 

- __UTF-32__: Das einfachste, aber auch speicheraufw√§ndigste, ist, sie alle auf gleiche L√§nge zu bringen. Jeder Codepoint wird in 4 Bytes = 32 Bit kodiert.   
- Bei __UTF-16__ wird ein Codepoint entweder mit 2 Bytes oder mit 4 Bytes dargestellt. 
- Bei __UTF-8__  wird ein Codepoint mit 1,2,3 oder 4 Bytes dargestellt. 
- __UTF-8__ ist das Format mit der h√∂chsten Verbreitung. Es wird auch von Julia verwendet. 


### UTF-8

- F√ºr jeden Codepoint werden 1, 2, 3 oder 4 volle Bytes verwendet. 

- Bei einer Codierung mit variabler L√§nge muss man erkennen k√∂nnen, welche Bytefolgen zusammengeh√∂ren:
    - Ein Byte der Form 0xxxxxxx  steht f√ºr einen ASCII-Codepoint der L√§nge 1.
    - Ein Byte der Form 110xxxxx  startet einen 2-Byte-Code.
    - Ein Byte der Form 1110xxxx  startet einen 3-Byte-Code.
    - Ein Byte der Form 11110xxx  startet einen 4-Byte-Code.
    - Alle weiteren Bytes eines 2-,3- oder 4-Byte-Codes haben die Form 10xxxxxx. 

- Damit ist der Platz, der f√ºr den Codepoint zur Verf√ºgung steht (Anzahl der x):
     - Ein-Byte-Code:  7 Bits
     - Zwei-Byte-Code: 5 + 6 = 11 Bits
     - Drei-Byte-Code: 4 + 6 + 6 = 16 Bits
     - Vier-Byte-Code: 3 + 6 + 6 + 6 = 21 Bits

- Damit ist jeder ASCII-Text automatisch auch ein korrekt codierter UTF-8-Text.

- Sollten die bisher f√ºr Unicode festgelegten 17 Ebenen = 21 Bit = 1.1 Mill. m√∂gliche Zeichen mal erweitert werden, dann wird UTF-8 auf 5- und 6-Byte-Codes erweitert.  
  

## Zeichen und Zeichenketten in Julia

### Zeichen: `Char` 

Der Datentyp `Char`  kodiert ein einzelnes Unicode-Zeichen. 

- Julia verwendet daf√ºr einfache Anf√ºhrungszeichen:  `'a'`.  
- Ein `Char` belegt 4 Bytes Speicher und 
- repr√§sentiert einen Unicode-Codepoint.
- `Char`s k√∂nnen  von/zu `UInt`s umgewandelt werden und 
- der Integer-Wert ist gleich dem Unicode-codepoint.


### Zeichenketten: `String`

- F√ºr Strings verwendet Julia doppelte Anf√ºhrungszeichen: `"a"`.
- Sie sind UTF-8-codiert, d.h., ein Zeichen kann zwischen 1 und 4 Bytes lang sein.


In [None]:
@show typeof('a') sizeof('a') typeof("a") sizeof("a");

- `Char`s k√∂nnen  von/zu `UInt`s umgewandelt werden.


In [None]:
UInt('a')

In [None]:
b = Char(0x2656)

__Bei einem Nicht-ASCII-String unterscheiden sich Anzahl der Bytes und Anzahl der Zeichen:__


In [None]:
asciistr = "Hello World!"
@show length(asciistr) ncodeunits(asciistr);

(Das Leerzeichen z√§hlt nat√ºrlich auch.)


In [None]:
str = "üòÑ Hell√∂ üé∂"
@show length(str) ncodeunits(str);

__Iteration √ºber einen String iteriert √ºber die Zeichen:__


In [None]:
for i in str
    println(i, "  ", typeof(i))
end

### Verkettung von Strings

"Strings mit Verkettung bilden ein nichtkommutatives Monoid."

Deshalb wird in Julia die Verkettung multiplikativ geschrieben.


In [None]:
 str * asciistr * str

Damit sind auch Potenzen mit nat√ºrlichem Exponenten definiert.


In [None]:
str^3,  str^0

### Stringinterpolation

Das Dollarzeichen hat in Strings eine Sonderfunktion, die wir schon oft in 
`print()`-Anweisungen  genutzt haben. MAn kann damit eine Variable oder einen Ausdruck interpolieren:


In [None]:
a = 33.4
b = "x"

s = "Das Ergebnis f√ºr $b ist gleich $a und die verdoppelte Wurzel daraus ist $(2sqrt(a))\n"

### Backslash escape sequences 

Der _backslash_ `\` hat in Stringkonstanten ebenfalls eine Sonderfunktion. 
Julia benutzt die von C und anderen Sprachen bekannten _backslash_-Codierungen f√ºr Sonderzeichen und f√ºr Dollarzeichen und Backslash selbst:


In [None]:
s = "So bekommt man \'Anf√ºhrungszeichen\" und ein \$-Zeichen und einen\nZeilenumbruch und ein \\ usw... "
print(s)

### Triple-Quotes

Man kann Strings auch mit Triple-Quotes begrenzen. 
In dieser Form bleiben Zeilenumbr√ºche und Anf√ºhrungszeichen erhalten:


In [None]:
s = """
 Das soll
ein "l√§ngerer"  
  'Text' sein.
"""

print(s)

### Raw strings

In einem `raw string` sind alle backslash-Codierungen au√üer `\"` abgeschaltet:


In [None]:
s = raw"Ein $ und ein \ und zwei \\ und ein 'bla'..."
print(s)

## Weitere Funktionen f√ºr Zeichen und Strings (Auswahl)

### Tests f√ºr Zeichen


In [None]:
@show isdigit('0') isletter('Œ®') isascii('\U2655') islowercase('Œ±') 
@show isnumeric('¬Ω') iscntrl('\n') ispunct(';');

### Anwendung auf Strings

Diese Tests lassen sich z.B. mit `all()`, `any()` oder `count()` auf Strings anwenden:


In [None]:
all(ispunct, ";.:")

In [None]:
any(isdigit, "Es ist 3 Uhr! üïí" )

In [None]:
count(islowercase, "Hello, du!!")

### Weitere String-Funktionen


In [None]:
@show startswith("Lampenschirm", "Lamp")  occursin("pensch", "Lampenschirm")  
@show endswith("Lampenschirm", "irm"); 

In [None]:
@show uppercase("Eis") lowercase("Eis")  titlecase("eiSen");

In [None]:
# remove newline from end of string

@show chomp("Eis\n")  chomp("Eis");

In [None]:
split("œÄ ist irrational.")

In [None]:
replace("œÄ ist irrational.", "ist" => "ist angeblich")

## Indizierung von Strings

Strings sind nicht mutierbar aber indizierbar. Dabei gibt es ein paar Besonderheiten.

- Der Index nummeriert die Bytes des Strings. 
- Bei einem nicht-ASCII-String sind nicht alle Indizes g√ºltig, denn
- ein g√ºltiger Index adressiert immer ein Unicode-Zeichen.

Unser Beispielstring:


In [None]:
str

Das erste Zeichen


In [None]:
str[1]

Dieses Zeichen ist in UTF8-Kodierung 4 Bytes lang. Damit sind 2,3 und 4 ung√ºltige Indizes. 


In [None]:
str[2]

Erst das 5. Byte ist ein neues Zeichen:


In [None]:
str[5]

Auch bei der Adressierung von Substrings m√ºssen Anfang und Ende jeweils g√ºltige Indizes sein, d.h., der Endindex muss ebenfalls das erste Byte eines Zeichens indizieren und dieses Zeichen ist das letzte des Teilstrings. 


In [None]:
str[1:7]

Die Funktion  `eachindex()` liefert einen Iterator √ºber die g√ºltigen Indizes:


In [None]:
for i in eachindex(str)
    c = str[i]
    println("$i: $c")
end

Wie √ºblich macht collect() aus einem Iterator einen Vektor.


In [None]:
collect(eachindex(str))

Die Funktion `nextind()` liefert den n√§chsten g√ºltigen Index.


In [None]:
@show nextind(str, 1) nextind(str, 2);  

Warum verwendet Julia einen Byte-Index und keinen Zeichenindex? Der Hauptgrund d√ºrfte die Effizienz der Indizierung sein.

- In einem langen String, z.B. einem Buchtext, ist die Stelle `s[123455]` mit einem Byte-Index schnell zu finden. 
- Ein Zeichen-Index m√ºsste in der UTF-8-Codierung den ganzen String durchlaufen, um das n-te Zeichen zu finden, da die Zeichen 1,2,3 oder 4 Bytes lang sein k√∂nnen.


Einige Funktionen liefern Indizes oder Ranges als Resultat. Sie liefern immer g√ºltige Indizes:


In [None]:
findfirst('l', str)

In [None]:
findfirst("Hel", str)

In [None]:
str2 = "Œ±Œ≤Œ≥Œ¥œµ"^3

In [None]:
n = findfirst('Œ≥', str2)

So kann man  ab dem n√§chsten nach `n=5` g√ºltigen Index weitersuchen:


In [None]:
findnext('Œ≥', str2, nextind(str2, n))