Proces konwersji danych z jednej formy do drugiej jest znany jako kodowanie. Służy do przekształcania danych, aby dane mogły być obsługiwane i wykorzystywane przez różne systemy. Kodowanie działa podobnie do konwersji temperatury ze stopnia Celsjusza na Fahrenheita, ponieważ jest ona po prostu konwertowana w innej formie, ale pierwotna wartość zawsze pozostaje taka sama. Kodowanie jest stosowane głównie w dwóch dziedzinach:
Uwaga: Kodowanie różni się od szyfrowania tym, że jego głównym celem nie jest ukrycie danych, ale przekształcenie ich w format umożliwiający ich prawidłowe wykorzystanie.
W tym temacie omówimy różne typy technik kodowania stosowanych w informatyce.
Rodzaj techniki kodowania
Kodowanie znaków
Kodowanie znaków koduje znaki w bajtach . Informuje komputery, jak interpretować zera i jedyneki na rzeczywiste znaki, liczby i symbole. Komputer rozumie tylko dane binarne; stąd wymagana jest konwersja tych znaków na kody numeryczne. Aby to osiągnąć, każdy znak jest konwertowany na kod binarny i w tym celu dokumenty tekstowe są zapisywane z typami kodowania. Można tego dokonać łącząc cyfry ze znakami. Jeśli nie zastosujemy kodowania znaków, nasza witryna nie będzie wyświetlać znaków i tekstu w odpowiednim formacie. W związku z tym zmniejszy się czytelność, a maszyna nie będzie w stanie poprawnie przetworzyć danych. Co więcej, kodowanie znaków zapewnia, że każdy znak ma odpowiednią reprezentację w formacie komputerowym lub binarnym.
Istnieją różne rodzaje technik kodowania znaków, które podano poniżej:
Kodowanie HTML
Kodowanie HTML służy do wyświetlania strony HTML w odpowiednim formacie. Dzięki kodowaniu przeglądarka internetowa dowiaduje się, jakiego zestawu znaków ma użyć.
W języku HTML w znacznikach HTML używane są różne znaki, takie jak . Aby zakodować te znaki jako treść, musimy użyć kodowania.
Kodowanie adresu URL
Kodowanie URL (Uniform Resource Locator). konwertować znaki do takiego formatu, aby można je było przesyłać przez Internet . Nazywa się to również kodowaniem procentowym. Kodowanie adresu URL ma na celu wysłanie adresu URL do Internetu przy użyciu zestawu znaków ASCII. Znaki inne niż ASCII są zastępowane znakiem %, po którym następują cyfry szesnastkowe.
Kodowanie UNICODE
Unicode to standard kodowania uniwersalnego zestawu znaków. Umożliwia kodowanie, reprezentowanie i obsługę tekstu reprezentowanego w większości języków lub systemów pisma dostępnych na całym świecie. Zapewnia punkt kodowy lub liczbę dla każdego znaku w każdym obsługiwanym języku. Może reprezentować w przybliżeniu wszystkie możliwe znaki we wszystkich językach. Określona sekwencja bitów nazywana jest jednostką kodującą.
Standard UNICODE może używać 8, 16 lub 32 bitów do reprezentowania znaków.
Standard Unicode definiuje format transformacji Unicode (UTF) do kodowania punktów kodowych.
Standard kodowania UNICODE ma następujące schematy UTF:
UTF8 jest zdefiniowany w standardzie UNICODE, który jest kodowaniem znaków o zmiennej szerokości używanym w komunikacji elektronicznej. UTF-8 może kodować wszystkie 1 112 064 prawidłowych punktów kodowych znaków w Unicode przy użyciu od jednej do czterech jednobajtowych (8-bitowych) jednostek kodu.
Kodowanie UTF16 reprezentuje punkty kodowe znaku przy użyciu jednej z dwóch 16-bitowych liczb całkowitych.
Kodowanie UTF32 reprezentuje każdy punkt kodowy jako 32-bitowe liczby całkowite.
Kodowanie Base64
Kodowanie Base64 służy do kodowania danych binarnych na równoważne znaki ASCII. W systemie pocztowym używane jest kodowanie Base64, ponieważ systemy pocztowe takie jak SMTP nie mogą pracować z danymi binarnymi, ponieważ akceptują wyłącznie dane tekstowe ASCII. Jest również używany w prostym uwierzytelnianiu HTTP do kodowania poświadczeń. Ponadto służy również do przesyłania danych binarnych do plików cookie i innych parametrów, aby uniemożliwić odczytanie danych i zapobiec manipulacji. Jeśli obraz lub inny plik zostanie przesłany bez kodowania Base64, zostanie uszkodzony, ponieważ system pocztowy nie będzie w stanie obsłużyć danych binarnych.
Base64 reprezentuje dane w blokach po 3 bajty, gdzie każdy bajt zawiera 8 bitów; stąd reprezentuje 24 bity. Te 24 bity są podzielone na cztery grupy po 6 bitów. Każda z tych grup lub fragmentów jest konwertowana na równoważną wartość Base64.
Kodowanie ASCII
Amerykański standardowy kodeks wymiany informacji (ASCII) to rodzaj kodowania znaków. Był to pierwszy standard kodowania znaków wydany w roku 1963.
Kod ASCII służy do reprezentowania znaków angielskich jako cyfr, gdzie każdej literze przypisany jest numer 0 do 127. Większość współczesnych schematów kodowania znaków opiera się na ASCII, chociaż obsługuje wiele dodatkowych znaków. Jest to kodowanie jednobajtowe, w którym wykorzystuje się tylko 7 dolnych bitów. W pliku ASCII każdy znak alfabetyczny, numeryczny lub specjalny jest reprezentowany przez 7-bitową liczbę binarną. Każdy znak klawiatury ma odpowiadającą wartość ASCII.
Kodowanie obrazu oraz audio i wideo
Kodowanie obrazu oraz dźwięku i wideo odbywa się w celu zaoszczędzenia miejsca na dysku. Pliki multimedialne, takie jak obraz, dźwięk i wideo, są kodowane w celu zapisania ich w bardziej wydajnym i skompresowanym formacie.
Te zakodowane pliki zawierają tę samą treść, zwykle o podobnej jakości, ale w skompresowanym rozmiarze, dzięki czemu można je zapisać na mniejszej przestrzeni, łatwo przesłać pocztą lub pobrać do systemu.
Możemy to rozumieć jako. Plik audio WAV jest konwertowany do pliku .MP3 w celu zmniejszenia rozmiaru o 1/10tdo pierwotnego rozmiaru.