HTML5 - URL Kodiranje


Što je URL kodiranje?

Prema RFC 3986, znakovi u URL-u ograničeni su samo na definisani skup rezervisanih i bezrezervisanih US-ASCII znakova. Nijedan drugi znak nije dozvoljen u URL-u. Ali URL često sadrži znakove izvan US-ASCII skupa znakova, tako da se moraju pretvoriti u važeći US-ASCII format za svjetsku interoperabilnost. Kodiranje URL-a, također poznato i kao postotno kodiranje. To je postupak kodiranja podataka o URL-u tako da se mogu sigurno prenijeti putem Interneta. Za mapiranje širokog spektra znakova koji se koristi širom svijeta koristi se postupak u dva koraka:

  • Podaci se u početku kodiraju prema UTF-8 kodiranju znakova.
  • Tada bi samo oni bajtovi koji ne odgovaraju znakovima u bezrezervisanom skupu trebali biti kodirani u procentima poput %HH, gdje je HH heksadecimalna vrijednost bajta.

Na primjer, niz: François bi bio kodiran kao: Fran%C3%A7ois. Ç, ç (c-cedilla) je latinično pismo.



Rezervisani karakteri

Određeni znakovi su rezervisani ili im je ograničena upotreba u URL-u, jer ih generička sintaksa u određenoj šemi URL-a može (ili ne mora) definisati kao graničke. Na primjer, kosa crta / koristi se za odvajanje različitih dijelova URL-a. Ako podaci za komponentu URL-a sadrže znak koji bi se sukobljavao sa rezervisanim skupom znakova, koji je definisan kao granički u šemi URL-a, tada sukobljeni znak mora biti kodiran u postotcima prije formiranja URL-a. Rezervirani znakovi u URL-u su:

! # $ & ' ( ) * + , / : ; = ? @ [ ]
%21 %23 %24 %26 %27 %28 %29 %2A %2B %2C %2F %3A %3B %3D %3F %40 %5B %5D


Bezrezervisani karakteri

Znakovi koji su dopušteni u URL-u, ali nemaju rezervisanu svrhu, nazivaju se bezrezervisanim. Uključuju velika i mala slova, decimalne brojeve, crticu, tačku, podvlaku i tildu. Sljedeća tabela navodi sve bezrezervisane znakove u URL-u:

A B C D E F G H I J K L M N O P Q R S T U W X Y Z
a b c d e f g h i j k l m n o p q r s t u w x y z
0 1 2 3 4 5 6 7 8 9 - _ . ~