Перевод адреса сайта с букв в код

Кириллические домены, Punycode

Кириллический домен — это название сайта на русском языке (например, домен.рус). Как разновидность такие домены входят в большую группу IDN-доменов . Например: .РФ, .РУС.

Немного истории

Когда появились кириллические домены? Первые домены на кириллице появились в 2001 году в доменных зонах .NET и .COM (то есть сначала только часть до точки могла быть на кириллице). А в 2009 году появилась первая кириллическая зона .РФ, с этого времени можно регистрировать домены целиком на русском языке. К 2019 году зарегистрировано уже 800 тысяч доменов в зоне .PФ (по данным Координационного центра).

Зачем мне кириллический домен?

В первую очередь, кириллические домены выбирают для сайтов, ориентированных на русскоговорящую аудиторию. Какое название сайта вашей соседке Ирине Михайловне легче написать в поисковике: «миллионалыхроз.рф» или «millionalykhroz.ru»? Простое название на русском языке помогает продвижению бизнеса.

С той же целью многие владельцы доменов на латинице регистрируют аналогичный домен на кириллице и просто настраивают перенаправление с русского домена на английский. Например, если вбить в адресную строку домен «яндекс.рф», откроется «yandex.ru». Можете проверить 🙂

Для чего нужен Punycode?

Ещё со времен возникновения Интернета было решено, что домены могут содержать только буквы латинского алфавита, цифры и тире. С появлением кириллических доменов ничего не изменилось. Просто-напросто придумали, как переводить домен с кириллицы на латиницу, и назвали этот способ Punycode. С помощью него и происходит преобразование кириллических доменов. Например, домен розочки.рф в формате Punycode будет выглядеть так: xn--g1acfobj6c.xn--p1ai (домен .РФ на латинице). Поэтому не пугайтесь, если на месте вашего красивого названия сайта будет отображаться такой непривлекательный набор знаков.

Как перевести домен в Punycode?

Современные браузеры и мессенджеры имеют встроенную поддержку Punycode и понимают кириллические домены. Но в некоторых случаях (например, чтобы добавить домен в cPanel) нужно переводить домен в Punycode самому. Это несложно, инструкция ниже.

Откройте Punycode-конвертер для доменов .РФ. Введите имя вашего домена в строку и нажмите Punycode-конвертация:

Готово, перевод домена в Punycode сделан. В этой же строке появится ваш домен в формате Punycode:

Вместо домена — адрес из букв, цифр и тире

Это означает, что у вас IDN-домен . Например: .РФ, .РУС.

В системе DNS разрешено использовать только 26 букв латинского алфавита, цифры от 0 до 9 и знак дефиса. Символы национальных алфавитов не могут быть корректно обработаны текущей службой DNS. Чтобы регистрация и работа IDN-доменов стала возможной, было принято решение преобразовывать такие домены в Punycode.

Чтобы IDN-домен после преобразования нельзя было спутать с обычным доменом, все IDN-домены начинаются со специального префикса «xn--». Таким образом, «xn--c1ad6a.xn--p1ai» — это IDN-домен в Punycode, а «reg.ru» — это обычный домен.

Преобразование домена в Punycode и обратно производится на стороне браузера, поэтому при введении в адресную строку IDN-домена браузер сам конвертирует введенное значение в формат Punycode для взаимодействия с DNS. Именно поэтому в адресной строке вы и наблюдаете набор букв и цифр, начинающихся с «xn--».

Зарегистрируйте домен и получите 2 месяца хостинга и SSL-сертификат в подарок.

Источник

Текущие плагины и программы для Mozilla Firefox ® и др.

Главное меню

Ссылки на ресурсы

Url Encode / Decode.

Система кодирования URL (Uniform Resource Locator Encode/Decode) заключается в том, чтобы заменить «небезопасный» символ при передачи данных, так называемым «безопасным», где перед шестнадцатеричным эквивалентом ставится знак процента — ‘%’ (percent‐encoding).

Символы, которые не кодируются, определены спецификацией RFC3986 (англ.), бывший стандарт RFC2396 (англ.)

Справка в Википедии: Юникод, кодировка ASCII, идентификатор ресурса URI

Для кодирования URL из национальных символов в символы ASCII, используют Punycode (см. ниже)

Например, введя в данную форму кодированный текст, состоящий до кодирования, из не английских символов:

Получим после декодирования, следующий нормально читаемый текст:

URL Декодировщик / Кодировщик.

URL Декодировщик / Кодировщик.

Для работы декодера / кодера, В Вашем браузере должен быть разрешен JavaScript.

Рекомендованные правила для кодирования

Не резервированные

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
a b c d e f g h i j k l m n o p q r s t u v w x y z
0 1 2 3 4 5 6 7 8 9 — _ .

Резервированные

Дополнительные ресурсы декодирования и кодирования

Декодер и разбор URL:

  • trueurl.net (на сайте можно также проверить URL на спам)
  • pressbin.com — URL-encode и URL-decode (используются функции PHP и JavaScript)
  • webtoolhub.com — Кодирование URL и декодирование URL. На сайте, имеются множество и других полезных сервисов (более 60): HTML Encoder Decoder, HTML To Text Converter, HTML Encrypter, URL Deobfuscator, URL Expander (раскодировщик коротких URL). англ.)

opinionatedgeek.com — Декодировщик Base 64 Encoder в режиме онлайн. Объем до 10мб
opinionatedgeek.com — Определение маскированного IP адреса (маскировку IP, часто используют спамеры). Кодирование или декодирование IP

coderstoolbox.net — Строковый конвертер: Base64, XML, URL, ECMAScript, набор символов. В кодировке: US-ASCII, ISO-8859-1, UTF-8, а также другие бесплатные онлайн-инструменты: конвертер времени (Unix, ISO 8601, RFC 2822), сетевой конвертер, XPath.

freeformatter.com — Бесплатные онлайн инструментов для разработчиков. Инструменты: форматирование и проверка кода (JSON, HTML, XML, SQL), кодеры и декодеры (URL, Base 64).

Расширение Flagfox подключается к сервису разбора URL — urlparser.com. Переход к сервису, осуществляется путем нажатии правой кнопкой мышки в адресной строке по флагу и выбор в меню — Парсер URL

Punycode.

Для кодирования URL из национальных символов в символы ASCII, воспользуйтесь сервисом: «Punycode конвертер» на сайте — wwhois.ru

, превратится после Punycode конвертера в:

, что является правильной записью для URL.

Примечание. Если Вы будете отправлять URL, содержащий символы национальной кодировки, в различные веб-сервисы: каталоги, веб-формы, веб-анализаторы и т.д, то используйте Punycode конвертер.

Источник

Перевод текста в цифровой код.

Давайте разберемся как же все таки переводить тексты в цифровой код? Кстати, на нашем сайте вы можете перевести любой текст в десятичный, шестнадцатеричный, двоичный код воспользовавшись Калькулятором кодов онлайн.

Кодирование текста.

По теории ЭВМ любой текст состоит из отдельных символов. К этим символам относятся: буквы, цифры, строчные знаки препинания, специальные символы ( «»,№, (), и т.д.), к ним, так же, относятся пробелы между словами.

Необходимый багаж знаний. Множество символов, при помощи которых записываю текст, называется АЛФАВИТОМ.

Число взятых в алфавите символов, представляет его мощность.

Количество информации можно определить по формуле : N = 2b

  • N – та самая мощность ( множество символов),
  • b – Бит ( вес взятого символа).

Алфавит, в котором будет 256 может вместить в себя практически все нужные символы. Такие алфавиты называют ДОСТАТОЧНЫМИ.

Если взять алфавит мощностью 256, и иметь в виду что 256 = 28

  • 8 бит всегда называют 1 байт:
  • 1 байт = 8 бит.

Если перевести каждый символ в двоичный код, то этот код компьютерного текста будет занимать 1 байт.

Как текстовая информация может выглядеть в памяти компьютера?

Любой текст набирают на клавиатуре, на клавишах клавиатуры, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111.

Поскольку, байт – это самая маленькая адресуемая частица памяти, и память обращена к каждому символу отдельно – удобство такого кодирование очевидно. Однако, 256 символов – это очень удобное количество для любой символьной информации.

Естественно, встал вопрос: Какой конкретно восьми разрядный код принадлежит каждому символу? И как осуществить перевод текста в цифровой код?

Этот процесс условный, и мы вправе придумать различные способы для кодировки символов. Каждый символ алфавита имеет свой номер от 0 до 255. И каждому номеру присвоен код от 00000000 до 11111111.

Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для различных типов ЭВМ используют разные таблицы для кодировки.

ASCII(или Аски), стала международным стандартом для персональных компьютеров. Таблица имеет две части.

Таблица кода символов ASCII.

Первая половина для таблицы ASCII. (Именно первая половина, стала стандартом.)

Соблюдение лексикографического порядка, то есть, в таблице буквы (Строчные и прописные) указаны в строгом алфавитном порядке, а цифры по возрастанию, называют принципом последовального кодирования алфавита.

Для русского алфавита тоже соблюдают принцип последовательного кодирования.

Сейчас, в наше время используют целых пять систем кодировок русского алфавита(КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за количества систем кодировок и отсутствия одного стандарта, очень часто возникают недоразумения с переносом русского текста в компьютерный его вид.

Одним из первых стандартов для кодирования русского алфавита на персональных компьютерах считают КОИ8(«Код обмена информацией, 8-битный»). Данная кодировка использовалась в середине семидесятых годов на серии компьютеров ЕС ЭВМ, а со средины восьмидесятых, её начинают использовать в первых переведенных на русский язык операционных системах UNIX.

С начала девяностых годов, так называемого, времени, когда господствовала операционная система MS DOS, появляется система кодирования CP866 («CP» означает «Code Page», «кодовая страница»).

Гигант компьютерных фирм APPLE, со своей инновационной системой, под упралением которой они и работали (Mac OS), начинают использовать собственную систему для кодирования алфавита МАС.

Международная организация стандартизации (International Standards Organization, ISO)назначает стандартом для русского языка еще одну систему для кодирования алфавита, которая называется ISO 8859-5.

А самая распространенная, в наши дни, система для кодирования алфавита, придумана в Microsoft Windows, и называется CP1251.

С второй половины девяностых годов, была решена проблема стандарта перевода текста в цифровой код для русского языка и не только, введением в стандарт системы, под названием Unicode. Она представлена шестнадцатиразрядной кодировкой, это означает, что на каждый символ отводится ровно по два байта оперативной памяти. Само собой, при такой кодировке, затраты памяти увеличены в два раза. Однако, такая кодовая система позволяет переводить в электронный код до 65536 символов.

Специфика стандартной системы Unicode, является включением в себя абсолютно любого алфавита, будь он существующим, вымершим, выдуманным. В конечном счете, абсолютно любой алфавит, в добавок к этом, система Unicode, включает в себя уйму математических, химических, музыкальных и общих символов.

Давайте с помощью таблицы ASCII посмотрим, как может выглядеть слово в памяти вашего компьютера.

Очень часто случается так, что ваш текст, который написан буквами из русского алфавита, не читается, это обусловлено различием систем кодирования алфавита на компьютерах. Это очень распространенная проблема, которая довольно часто обнаруживается.

Источник

Оцените статью
( Пока оценок нет )
Поделиться с друзьями
Uchenik.top - научные работы и подготовка
0 0 голоса
Article Rating
Подписаться
Уведомить о
guest
0 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии