کدگذاری (مجموعه کاراکترها)

از ویکی‌کد، دانشنامهٔ برنامه‌نویسی
پرش به ناوبری پرش به جستجو

برای نمایش صحیح یک صفحه HTML، مرورگر باید بداند از کدام مجموعه کاراکتر استفاده کند.[۱]

کدگذاری کاراکتر چیست؟

ACSII اولین استاندارد کدگذاری کاراکتر است (مجموعه کاراکتر نیز گفته می‌شود).

ASCII 128 کاراکتر الفبایی مختلف تعریف می‌کند که می‌توانند در اینترنت استفاده شوند: اعداد (9-0)، حروف انگلیسی (A-Z) و بعضی از کاراکترهای خاص مانند: ! $ + - ( ) @ < > .

ISO-8859-1 مجموعه کاراکتر پیش فرض برای HTML 4 بود. این مجموعه کاراکتر ۲۵۶ کد کاراکتر مختلف را پشتیبانی می‌کرد.

ANSI (Windows-1252) مجموعه کاراکتر اصلی ویندوز بود. ANSI شبیه ISO-8859-1 بود به جز اینکه ANSI دارای ۳۲ کاراکتر اضافی است.

از آنجایی که ANSI و ISO-8859-1 خیلی محدود بودند، HTML 4 از UTF-8 هم پشتیبانی می‌کرد.

UTF-8 (Unicode) تقریباً همهٔ کاراکترها و نمادهای دنیا را پشتیبانی می‌کند.

مجموعه کاراکتر پیش‌فرض برای UTF-8 ،HTML 5 است.

ویژگی charset در HTML

برای نمایش صحیح یک صفحه HTML، مرورگر وب باید مجموعه کاراکتر مورد استفاده در صفحه را بداند.

This is specified in the tag:

این مجموعه در تگ <meta> مشخص می‌شود:

<meta charset="UTF-8">
اگر مرورگری در یک صفحه ISO-8859-1 را تشخیص دهد، حالت پیش فرض آن ANSI می‌شود.

تفاوت های بین مجموعه کاراکترها

جدول زیر تفاوت‌های بین مجموعه کاراکترهای توصیف شده در بالا را نمایش می‌دهد:

عدد ASCII ANSI 8859 UTF-8 تعریف
۳۲ فاصله (Space)
۳۳ ! ! ! ! علامت تعجب (exclamation mark)
۳۴ " " " " علامت نقل قول (quotation mark)
۳۵ # # # # نماد عدد (number sign)
۳۶ $ $ $ $ نماد دلار (dollar sign)
۳۷ % % % % نماد درصد (percent sign)
۳۸ & & & & امپرسند (Ampersand)
۳۹ ' ' ' ' آپاستروفی (Apostrophe)
۴۰ ( ( ( ( پرانتز چپ (left parenthesis )
۴۱ ) ) ) ) پرانتز راست (right parenthesis)
۴۲ * * * * ستاره (Asterisk)
۴۳ + + + + نماد مثبت (plus sign)
۴۴ , , , , ویرگول (Comma)
۴۵ - - - - خط ربط - منفی (hyphen-minus)
۴۶ . . . . نقطه (full stop)
۴۷ / / / / ممیز (Solidus)
۴۸ 0 0 0 0 عدد صفر (digit zero)
۴۹ 1 1 1 1 عدد یک (digit one)
۵۰ 2 2 2 2 عدد دو (digit two)
۵۱ 3 3 3 3 عدد سه (digit three)
۵۲ 4 4 4 4 عدد چهار (digit four)
۵۳ 5 5 5 5 عدد پنج (digit five)
۵۴ 6 6 6 6 عدد شش (digit six)
۵۵ 7 7 7 7 عدد هفت (digit seven)
۵۶ 8 8 8 8 عدد هشت (digit eight)
۵۷ 9 9 9 9 عدد نه (digit nine)
۵۸ : : : : دو نقطه (Colon)
۵۹ ; ; ; ; نقطه ویرگول (Semicolon)
۶۰ < < < < علامت کوچکتر (less-than sign)
۶۱ = = = = علامت مساوی (equals sign)
۶۲ > > > > علامت بزگتر (greater-than sign)
۶۳ ? ? ? ? عالمت سؤال (question mark)
۶۴ @ @ @ @ آت ساین (commercial at)
۶۵ A A A A حرف بزرگ A (Latin capital letter A)
۶۶ B B B B حرف بزرگ B (Latin capital letter B)
۶۷ C C C C حرف بزرگ C (Latin capital letter C)
۶۸ D D D D حرف بزرگ D (Latin capital letter D)
۶۹ E E E E حرف بزرگ E (Latin capital letter E)
۷۰ F F F F حرف بزرگ F (Latin capital letter F)
۷۱ G G G G حرف بزرگ G (Latin capital letter G)
۷۲ H H H H حرف بزرگ H (Latin capital letter H)
۷۳ I I I I حرف بزرگ I (Latin capital letter I)
۷۴ J J J J حرف بزرگJ (Latin capital letter J)
۷۵ K K K K حرف بزرگ K (Latin capital letter K)
۷۶ L L L L حرف بزرگ L (Latin capital letter L)
۷۷ M M M M حرف بزرگ M (Latin capital letter M)
۷۸ N N N N حرف بزرگ N (Latin capital letter N)
۷۹ O O O O حرف بزرگ O (Latin capital letter O)
۸۰ P P P P حرف بزرگ P (Latin capital letter P)
۸۱ Q Q Q Q حرف بزرگ Q (Latin capital letter Q)
۸۲ R R R R حرف بزرگ R (Latin capital letter R)
۸۳ S S S S حرف بزرگ S (Latin capital letter S)
۸۴ T T T T حرف بزرگ T (Latin capital letter T)
۸۵ U U U U حرف بزرگ U (Latin capital letter U)
۸۶ V V V V حرف بزرگ V (Latin capital letter V)
۸۷ W W W W حرف بزرگ W (Latin capital letter W)
۸۸ X X X X حرف بزرگ X (Latin capital letter X)
۸۹ Y Y Y Y حرف بزرگ Y (Latin capital letter Y)
۹۰ Z Z Z Z حرف بزرگ Z (Latin capital letter Z)
۹۱ [ [ [ [ براکت چپ (left square bracket)
۹۲ \ \ \ \ ممیز معکوس (reverse solidus)
۹۳ ] ] ] ] براکت راسن (right square bracket)
۹۴ ^ ^ ^ ^ کلاهک (circumflex accent)
۹۵ _ _ _ _ زیر خط (low line)
۹۶ ` ` ` ` grave accent
۹۷ a a a a حرف کوچک لاتین a (Latin small letter a)
۹۸ b b b b حرف کوچک لاتین b (Latin small letter b)
۹۹ c c c c حرف کوچک لاتین c (Latin small letter c)
۱۰۰ d d d d حرف کوچک لاتین d (Latin small letter d)
۱۰۱ e e e e حرف کوچک لاتین e (Latin small letter e)
۱۰۲ f f f f حرف کوچک لاتین f (Latin small letter f)
۱۰۳ g g g g حرف کوچک لاتین g (Latin small letter g)
۱۰۴ h h h h حرف کوچک لاتین h (Latin small letter h)
۱۰۵ i i i i حرف کوچک لاتین i (Latin small letter i)
۱۰۶ j j j j حرف کوچک لاتین j (Latin small letter j)
۱۰۷ k k k k حرف کوچک لاتین k (Latin small letter k)
۱۰۸ l l l l حرف کوچک لاتین l (Latin small letter l)
۱۰۹ m m m m حرف کوچک لاتین m (Latin small letter m)
۱۱۰ n n n n حرف کوچک لاتین n (Latin small letter n)
۱۱۱ o o o o حرف کوچک لاتین o (Latin small letter o)
۱۱۲ p p p p حرف کوچک لاتین p (Latin small letter p)
۱۱۳ q q q q حرف کوچک لاتین q (Latin small letter q)
۱۱۴ r r r r حرف کوچک لاتین r (Latin small letter r)
۱۱۵ s s s s حرف کوچک لاتین s (Latin small letter s)
۱۱۶ t t t t حرف کوچک لاتین t (Latin small letter t)
۱۱۷ u u u u حرف کوچک لاتین u (Latin small letter u)
۱۱۸ v v v v حرف کوچک لاتین v (Latin small letter v)
۱۱۹ w w w w حرف کوچک لاتین w (Latin small letter w)
۱۲۰ x x x x حرف کوچک لاتین x (Latin small letter x)
۱۲۱ y y y y حرف کوچک لاتین y (Latin small letter y)
۱۲۲ z z z z حرف کوچک لاتین z (Latin small letter z)
۱۲۳ { { { { آکولاد چپ (left curly bracket)
۱۲۴ | | | | خط عمودی (vertical line)
۱۲۵ } } } } آکولاد راست (right curly bracket)
۱۲۶ ~ ~ ~ ~ مدک (Tilde)
۱۲۷ DEL
۱۲۸ نماد یورو (euro sign)
۱۲۹ استفاده نشده (NOT USED)
۱۳۰ نقل قولی تکی (single low-9 quotation mark)
۱۳۱ ƒ حرف لاتین کوچک f (Latin small letter f with hook)
۱۳۲ علامت نقل قول دوتایی (double low-9 quotation mark)
۱۳۳ سه نقطه (horizontal ellipsis)
۱۳۴ خنجر (Dagger)
۱۳۵ خنجر دوتایی (double dagger)
۱۳۶ ˆ modifier letter circumflex accent
۱۳۷ per mille sign
۱۳۸ Š Latin capital letter S with caron
۱۳۹ علامت نقل قول تکی اشاره به چپ (single left-pointing angle quotation mark)
۱۴۰ Œ Latin capital ligature OE
۱۴۱ NOT USED
۱۴۲ Ž Latin capital letter Z with caron
۱۴۳ NOT USED
۱۴۴ NOT USED
۱۴۵ علامت نقل قول تکی چپ (left single quotation mark)
۱۴۶ علامت نقل قول تکی راسن (right single quotation mark)
۱۴۷ علامت نقل قول دوتایی چپ (left double quotation mark)
۱۴۸ علامت نقل قول دوتایی راست (right double quotation mark)
۱۴۹ bullet
۱۵۰ خط تیره (en dash)
۱۵۱ em dash
۱۵۲ ˜ small tilde
۱۵۳ نماد علامت تجاری (trade mark sign)
۱۵۴ š Latin small letter s with caron
۱۵۵ علامت نقل قول تکی اشاره به راست (single right-pointing angle quotation mark)
۱۵۶ œ Latin small ligature oe
۱۵۷ NOT USED
۱۵۸ ž Latin small letter z with caron
۱۵۹ Ÿ Latin capital letter Y with diaeresis
۱۶۰ no-break space
۱۶۱ ¡ ¡ ¡ علامت تعجب معکوس (inverted exclamation mark)
۱۶۲ ¢ ¢ ¢ نماد سنت (cent sign)
۱۶۳ £ £ £ نماد پوند (pound sign)
۱۶۴ ¤ ¤ ¤ نماد پول رایج (currency sign)
۱۶۵ ¥ ¥ ¥ نماد یِن (yen sign)
۱۶۶ ¦ ¦ ¦ خط شکسته (broken bar)
۱۶۷ § § § نماد بخش (section sign)
۱۶۸ ¨ ¨ ¨ دو نقطه (Diaeresis)
۱۶۹ © © © علامت کپی رایت (copyright sign)
۱۷۰ ª ª ª feminine ordinal indicator
۱۷۱ « « « علامت نقل دو تایی اشاره به راست (left-pointing double angle quotation mark)
۱۷۲ ¬ ¬ ¬ not sign
۱۷۳ soft hyphen
۱۷۴ ® ® ® علامت ثبت شده (registered sign)
۱۷۵ ¯ ¯ ¯ macron
۱۷۶ ° ° ° نماد درجه (degree sign)
۱۷۷ ± ± ± نماد مثبت منفی (plus-minus sign)
۱۷۸ ² ² ² بالانویس (توان) ۲ (superscript two)
۱۷۹ ³ ³ ³ بالانویس (توان) ۳ (superscript three)
۱۸۰ ´ ´ ´ acute accent
۱۸۱ µ µ µ علامت میکرو (micro sign)
۱۸۲ نماد پاراگراف (pilcrow sign)
۱۸۳ · · · نقطه میانی (middle dot)
۱۸۴ ¸ ¸ ¸ cedilla
۱۸۵ ¹ ¹ ¹ بالانویس (توان) ۱ (superscript one)
۱۸۶ º º º masculine ordinal indicator
۱۸۷ » » » علامت نقل قول دو تایی اشاره به راست (right-pointing double angle quotation mark)
۱۸۸ ¼ ¼ ¼ کسری یک چهارم (vulgar fraction one quarter)
۱۸۹ ½ ½ ½ کسری یک دوم (vulgar fraction one half)
۱۹۰ ¾ ¾ ¾ کسری سه چهارم (vulgar fraction three quarters)
۱۹۱ ¿ ¿ ¿ علامت سؤال معکوس (inverted question mark)
۱۹۲ À À À حرف لاتین بزرگ A با grave (Latin capital letter A with grave)
۱۹۳ Á Á Á حرف لاتین بزرگ A با پریم (Latin capital letter A with acute)
۱۹۴ Â Â Â حرف لاتین بزرگ A با کلاهک (Latin capital letter A with circumflex)
۱۹۵ Ã Ã Ã حرف لاتین بزرگ A با تیلده (Latin capital letter A with tilde)
۱۹۶ Ä Ä Ä حرف لاتین بزرگ A با دو نقطه (Latin capital letter A with diaeresis)
۱۹۷ Å Å Å حرف لاتین بزرگ A با یک حلقه (Latin capital letter A with ring above)
۱۹۸ Æ Æ Æ Latin capital letter AE
۱۹۹ Ç Ç Ç Latin capital letter C with cedilla
۲۰۰ È È È Latin capital letter E with grave
۲۰۱ É É É Latin capital letter E with acute
۲۰۲ Ê Ê Ê Latin capital letter E with circumflex
۲۰۳ Ë Ë Ë Latin capital letter E with diaeresis
۲۰۴ Ì Ì Ì Latin capital letter I with grave
۲۰۵ Í Í Í Latin capital letter I with acute
۲۰۶ Î Î Î Latin capital letter I with circumflex
۲۰۷ Ï Ï Ï Latin capital letter I with diaeresis
۲۰۸ Ð Ð Ð Latin capital letter Eth
۲۰۹ Ñ Ñ Ñ Latin capital letter N with tilde
۲۱۰ Ò Ò Ò Latin capital letter O with grave
۲۱۱ Ó Ó Ó Latin capital letter O with acute
۲۱۲ Ô Ô Ô Latin capital letter O with circumflex
۲۱۳ Õ Õ Õ Latin capital letter O with tilde
۲۱۴ Ö Ö Ö Latin capital letter O with diaeresis
۲۱۵ × × × multiplication sign
۲۱۶ Ø Ø Ø Latin capital letter O with stroke
۲۱۷ Ù Ù Ù Latin capital letter U with grave
۲۱۸ Ú Ú Ú Latin capital letter U with acute
۲۱۹ Û Û Û Latin capital letter U with circumflex
۲۲۰ Ü Ü Ü Latin capital letter U with diaeresis
۲۲۱ Ý Ý Ý Latin capital letter Y with acute
۲۲۲ Þ Þ Þ Latin capital letter Thorn
۲۲۳ ß ß ß Latin small letter sharp s
۲۲۴ à à à Latin small letter a with grave
۲۲۵ á á á Latin small letter a with acute
۲۲۶ â â â Latin small letter a with circumflex
۲۲۷ ã ã ã Latin small letter a with tilde
۲۲۸ ä ä ä Latin small letter a with diaeresis
۲۲۹ å å å Latin small letter a with ring above
۲۳۰ æ æ æ Latin small letter ae
۲۳۱ ç ç ç Latin small letter c with cedilla
۲۳۲ è è è Latin small letter e with grave
۲۳۳ é é é Latin small letter e with acute
۲۳۴ ê ê ê Latin small letter e with circumflex
۲۳۵ ë ë ë Latin small letter e with diaeresis
۲۳۶ ì ì ì Latin small letter i with grave
۲۳۷ í í í Latin small letter i with acute
۲۳۸ î î î Latin small letter i with circumflex
۲۳۹ ï ï ï Latin small letter i with diaeresis
۲۴۰ ð ð ð Latin small letter eth
۲۴۱ ñ ñ ñ Latin small letter n with tilde
۲۴۲ ò ò ò Latin small letter o with grave
۲۴۳ ó ó ó Latin small letter o with acute
۲۴۴ ô ô ô Latin small letter o with circumflex
۲۴۵ õ õ õ Latin small letter o with tilde
۲۴۶ ö ö ö Latin small letter o with diaeresis
۲۴۷ ÷ ÷ ÷ division sign
۲۴۸ ø ø ø Latin small letter o with stroke
۲۴۹ ù ù ù Latin small letter u with grave
۲۵۰ ú ú ú Latin small letter u with acute
۲۵۱ û û û Latin small letter with circumflex
۲۵۲ ü ü ü Latin small letter u with diaeresis
۲۵۳ ý ý ý Latin small letter y with acute
۲۵۴ þ þ þ Latin small letter thorn
۲۵۵ ÿ ÿ ÿ Latin small letter y with diaeresis

مجموعه کاراکتر ASCII

ASCII مقدارهای ۰ تا ۳۱ (و ۱۲۷) را برای کنتزل کاراکترها استفاده می‌کند.

ASCII از مقدارهای ۳۲ تا ۱۲۶ برای حروف، ارقام و نمادها استفاده می‌کند.

ASCII از مقدارهای ۱۲۸ تا ۲۵۵ استفاده نمی‌کند.

مجموعه کاراکتر ANSI (Windows-1252)

ANSI در مورد مقدارهای ۰ تا ۱۲۷ شبیه ASCII است.

ANSI یک برای مقدارهای ۱۲۸ تا ۱۵۹ مجموعه کاراکتر اختصاصی دارد.

ANSI در مورد مقدارهای ۱۶۰ تا ۲۵۵ شبیه UTF-8 است.

مجموعه کاراکتر ISO-8859-1

۸۸۵۹-۱ در مورد مقادیر ۰ تا ۱۲۷ مشابه ASCII است.

۸۸۵۹-۱ از مقدارهای ۱۲۸ تا ۱۵۹ استفاده نمی‌کند.

۸۸۵۹-۱ در مورد مقادیر ۱۶۰ تا ۲۵۵ مشابه UTF-8 است.

مجموعه کاراکتر UTF-8

از مقدار ۰ تا ۱۲۷، UTF-8 شبیه ASCII است.

UTF-8 از مقادیر ۱۲۸ تا ۱۵۹ استفاده نمی‌کند.

از مقدار ۱۶۰ تا ۲۵۵، UTF-8 شبیه ANSI و ۸۸۵۹-۱ است.

UTF-8 از مقدار ۲۵۶ با بیش از ۱۰۰۰۰ کاراکتر مختلف ادامه می‌یابد.

برای مطالعه دقیق‌تر مرجع کامل مجموعه کاراکترهای HTML ما را مطالعه کنید.

قانون @charset در CSS

می‌توانید از قانون @charset در CSS برای تعیین کدگذاری کاراکتر به کار رفته در برگه استایل استفاده کنید:

مثال

کدگذاری برگه استایل را برابر با UTF-8 تنظیم کنید:

@charset "UTF-8";
در مورد قانون @charset در CSS در مرجع CSS ما بیشتر مطالعه کنید.

منابع آموزشی