Кодировка файлов
Все текстовые файлы имеют какую-то кодировку. Основных две: ANSI и Юникод. В ANSI кодировках (а их много) может быть закодировано только 256 символов. Если у вас русифицированная Windows, то блокнот создаёт текстовые документы в кодировке Windows-1251 — это одна из кодировок ANSI. Какая кодировка ANSI используется, зависит от языка операционной системы.
Юникод может содержать гораздо больше символов — примерно 65 тысяч, поэтому в Юникоде закодированы все письменности. Тем не менее, существует несколько вариантов юникода. Unicode LE используется в Windows, UTF-8 — распространён в интернете.
Немного лирики о том, почему всё так, а не иначе
Но и для пользователей, остающихся обычными «пользователями ПК» проблема с кодировками кириллистических символов иногда встаёт довольно остро. «Кракозяблики» — наследие предыдущей эпохи, когда каждый программист писал собственную таблицу кодировок. Например, скачал и хочешь почитать интересную книжку, а тут такое >=O
— …‚Ґа®пв®, ў иЁ¬ ЇҐаўл¬ бҐамҐ§л¬ ®вЄалвЁҐ¬, ¤®Єв®а ЏЁ«м¬ , б«Ґ¤гҐв бзЁв вм в Є §лў Ґ¬л© а ¤Ё в ЏЁ«м¬ ? — Џ®« Ј о, зв® Ґв. ђ ¤Ё в ЏЁ«м¬ — нв® Ґ ЇҐаў®Ґ, Ґ бҐа쥧®Ґ Ё, б®Ўб⢥®, Ґ ®вЄалвЁҐ. € Ґ ᮢᥬ ¬®Ґ. — ‚л, ўҐа®пв®, игвЁвҐ, ¤®Єв®а. ђ ¤Ё в ЏЁ«м¬ — Ї®пвЁҐ, Ё§ўҐб⮥ ўбпЄ®¬г иЄ®«мЁЄг. — ќв® ¬Ґп Ґ г¤Ёў«пҐв. ђ ¤Ё в ЏЁ«м¬ Ё Ўл« ®вЄалв ўЇҐаўлҐ Ё¬Ґ® иЄ®«мЁЄ®¬. Љ ᮦ «ҐЁо, п Ґ Ї®¬о, Є Є ҐЈ® §ў «Ё. Џ®б¬®ваЁвҐ г ‘вҐвб® ў ҐЈ® «€бв®аЁЁ Џ®бҐйҐЁп» — в ¬ ўбҐ нв® Ї®¤а®Ў® а ббЄ § ®. ЋвЄал« а ¤Ё в ўЇҐаўлҐ иЄ®«мЁЄ, ®ЇгЎ«ЁЄ®ў « Є®®а¤Ё вл ўЇҐаўлҐ бв㤥в, §ў «Ё а ¤Ё в Ї®зҐ¬г-в® ¬®Ё¬ Ё¬ҐҐ¬. — „ , б ®вЄалвЁп¬Ё Їа®Ёб室пв Ё®Ј¤ г¤ЁўЁвҐ«млҐ ўҐйЁ. ЌҐ ¬®Ј«Ё Ўл ўл ®ЎкпбЁвм иЁ¬ б«ги ⥫п¬, ¤®Єв®а ЏЁ«м¬ …
И так продолжалось до тех пор, пока не начали вводиться стандарты. Но и стандартов на текущее время уже немало. Например, есть кодировка Unicode, есть UTF-8, есть UTF-16 и так далее…
ВАЖНО!
Я так и не нашёл, как сменить кодировку по умолчанию при открытии Блокнота и создания нового документа уже из открытой сессии Блокнота.
Зато нашёл, как сменить кодировку по умолчанию, когда текстовый документ сначала создаётся (из контекстного меню) и только потому открывается Блокнотом. Тогда кодировка файла будет та, которая будет прописана по умолчанию. Об этом и пойдёт ниже речь.
Итак, для того, чтобы поменять кодировку создаваемых текстовых документов по умолчанию, нам понадобиться внести изменения в Реестр Windows.
В данной статье рассмотрен пример для файлов с расширением .txt, а т.к. в Windows программой, открывающей эти файлы по умолчанию является Блокнот, то некоторые считают, что меняют кодировку по умолчанию в самом Блокноте. Но это не так. Меняется кодировка по умолчанию создаваемого файла. Блокнот лишь открывает документ, считывая уже прописанную в нём кодировку. В самом Блокноте прошита кодировка ANSI. И, похоже, это не поменять средствами Реестра Windows.
Как бы Windows не старался насаждать свои стандарты, большинство современных серверов работают на *nix операционных системах потому, что эти системы имеют открытый код и не имеют «корпоративной тайны на семью печатями». То есть, в них можно разобраться самостоятельно: что и как работает. Думаю, и дальше будет такая же тенденция. Все более-менее «продвинутые пользователи ПК» будут использовать программное обеспечение с открытым кодом для работы, и программы «из пакетов» для быстрой обработки данных (чтобы не изобретать велосипедов). На *nix операционных системах на текущий момент кодировкой по умолчанию является кодировка UTF-8. Её можно без особых заморочек выставить другой, но зачем, если она на большинстве серверов и они нормально друг с другом *nix «общаются»? У меня на сервере тоже стоит UTF-8 и это удобно. Поэтому задача у меня стояла, как сменить кодировку в Блокноте по умолчанию для Windows с ANSI на общепринятую UTF-8.
Ну и хватит лирики. К делу!
Сперва удостоверимся в том, что в Блокноте стоит по умолчанию кодировка ANSI, для этого достаточно «Сохранить как…» любой документ и увидеть его кодировку:
Что делать, чтобы сменить кодировку в Блокноте по умолчанию с ANSI на другую
- Открываем Блокнот или создаём новый текстовый документ и потом его открываем в Блокноте
- Меняем кодировку текстового файла
- Сохраняем этот документ (я свой назвал по названию кодировки UTF-8.txt)
- Если не видно расширение файла, то можно его сделать видимым
- Можно сохранить файл и переименовать
- Перемещаем созданный документ в папкуC:WindowsShellNew (сразу создать текстовый документ в этой папке не получится — защита Windows от внесения изменений в системные папки)
- Если папки нет (что мало вероятно), то её нужно создать и также переместить на место: C:WindowsShellNew
- Теперь открываем редактор реестра
- Находим папку HKEY_CLASSES_ROOT / .txt / ShellNew / (она должна быть, если нет, то создаём)
- Создаём строковый параметр :
- С именемFileName
- Со значениемUTF-8.txt (имя того файла, который мы создали в п.3 перенесли в папку C:WindowsShellNew в п.4)
- Радуемся! Ибо это всё =)
Теперь при создании текстового файла с помощью контекстного меню у него будет та кодировка, которая была нами установлена в файле-образце, лежащем в папке C:WindowsShellNew. Проверяем:
Всё работает! =)
Кстати!
Если в файле-образце набрать какой-то текст, то он будет во всех новых файлах, создаваемых с помощью контекстного меню.
Не знаю, где это можно применить, т.к. у меня мало рутины с текстовыми файлами, но это может пригодиться тем, кто работает с шаблонными файлами. Или, например, для создания текстового файла-шаблона для HTML-документов, который можно создать таким же способом. Тогда не нужно будет каждый раз писать структуру ,
Инструкция по изменению кодировки в стандартном блокноте
Его обычно можно найти по следующему пути: «пуск», «все программы», «стандартные». Нашли? Давайте откроем. Если требуется произвести работы с уже существующем документом, то нажимаем «файл», «открыть» и выбираем его.
После написания текста или открытия готового документа в меню «файл» нажимаем «сохранить как».
После этого на экране появляется окно, в котором можно выбрать подходящий вариант из представленного списка.
Выбираем подходящий вариант, место сохранения документа и подтверждаем операцию. Вот и всё. Было просто? На самом деле для выполнения нужных работ могут потребоваться лишь считанные секунды.
Инструкция для Notepad++
Теперь давайте посмотрим, как обстоят дела в более профессиональном текстовом редакторе. Для смены кодировки текстовой информации в верхнем меню рабочего интерфейса есть специальный раздел. Сейчас покажу на скриншоте.
Если кликнуть мышкой по соответствующему разделу, то появится нужный список. Остается только сделать выбор и сохранить новые изменения.
Как видите, изменять кодировку текста при помощи блокнотов достаточно просто. Нужно лишь выполнить несколько не сложных действий.
Стоит упомянуть, что Notepad++ весьма удобен для редактирования различных кодов. Например, PHP, HTML. Собственно, поэтому он широко распространен среди многих пользователей, которые периодически работают с исходным кодом, например, тех же сайтов. Что уж говорить, я сам периодическим им пользуюсь. Много места на диске не занимает, работает быстро, коды просматривать и редактировать удобно. Ладно, на этом завершу мысль, не буду превращать эту статью в обзор хорошего программного обеспечения для конкретных целей. Хотя, в будущем, скорее всего, еще вернусь к данной теме.
Кстати, а вы знаете, что этот самый блог посвящен темам финансов и заработков в интернете. К примеру, знаете, как зарабатывают на копирайтинге, на сайтах или арбитраже трафика? Есть множество профессиональных тонкостей и перспективных направлений деятельности.
Инструкция для Word
- Если у вас нет программы Word, то скачайте ее с официального сайта разработчиков и установите на свой компьютер. Если вы не собираетесь постоянно использовать эту программу, то платить за нее не нужно, вам хватит пробной версии.
- Нажмите на нужный файл правой клавишей мышки и откройте подменю «Открыть с помощью», укажите программу Word. Если данной программы нет в списке, то запустите Word обычным способом. Откройте меню «Файл» и выберите команду «Открыть», укажите расположение нужного документа на жестком диске и нажмите «Открыть». Будет предложено несколько вариантов открытия файла, связанных с его нестандартной кодировкой, укажите нужный и нажмите команду ОК.
Подбор кодировки - Далее нужно изменить кодировку и сохранить результат, для этого откройте меню «Файл» и нажмите пункт «Сохранить как». Укажите директорию для измененного документа, впишите новое имя и выполните команду «Сохранить». Загрузится окно атрибутов документа, выберите нужную кодировку и нажмите Enter (наиболее используемой кодировкой является «Юникод»).
- Внимательно отнеситесь к сохранению документа, если вы попытаетесь сохранить файл в прежнюю папку с прежним названием, то новый документ заменит собой старый файл. Чтобы сохранить на диске два разных документа, нужно использовать для них разные названия или папки.
- При сохранении файла также обратите внимание на его расширение. Если документ в дальнейшем будет открываться с помощью программы Word 2003 года выпуска и более старшими версиями, то используйте формат doc. Если документ нужен для программы 2007 года и более новых версий, то подойдет формат docx. Также стоит помнить, что формат doc открывается как на старых версиях программы, так и на новых, но у них ограниченное форматирование. Стоит понимать, что отображение текстового документа не стандартными символами – это не только признак неизвестной кодировки, возможно в используемом редакторе нет нужного шрифта, в таком случае нужно менять не кодировку, а шрифт.
Выбор кодировки
-
Откройте вкладку Файл.
-
Выберите пункт Сохранить как.
Чтобы сохранить файл в другой папке, найдите и откройте ее.
-
В поле Имя файла введите имя нового файла.
-
В поле Тип файла выберите Обычный текст.
-
Нажмите кнопку Сохранить.
-
Если появится диалоговое окно Microsoft Office Word — проверка совместимости, нажмите кнопку Продолжить.
-
В диалоговом окне Преобразование файла выберите подходящую кодировку.
-
Чтобы использовать стандартную кодировку, выберите параметр Windows (по умолчанию).
-
Чтобы использовать кодировку MS-DOS, выберите параметр MS-DOS.
-
Чтобы задать другую кодировку, установите переключатель Другая и выберите нужный пункт в списке. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.
Примечание: Чтобы увеличить область отображения документа, можно изменить размер диалогового окна Преобразование файла.
-
-
Если появилось сообщение «Текст, выделенный красным, невозможно правильно сохранить в выбранной кодировке», можно выбрать другую кодировку или установить флажок Разрешить подстановку знаков.
Если разрешена подстановка знаков, знаки, которые невозможно отобразить, будут заменены ближайшими эквивалентными символами в выбранной кодировке. Например, многоточие заменяется тремя точками, а угловые кавычки — прямыми.
Если в выбранной кодировке нет эквивалентных знаков для символов, выделенных красным цветом, они будут сохранены как внеконтекстные (например, в виде вопросительных знаков).
-
Если документ будет открываться в программе, в которой текст не переносится с одной строки на другую, вы можете включить в нем жесткие разрывы строк. Для этого установите флажок Вставлять разрывы строк и укажите нужное обозначение разрыва (возврат каретки (CR), перевод строки (LF) или оба значения) в поле Завершать строки.
Заключение
Зачем нам знать, как менять кодировку в текстовых редакторах? IDE Visual C++ сама выбирает кодировку. Если вы откроете любой файл с исходным кодом (.cpp или .h) в простом текстовом редакторе, то увидите, что кодировка этого файла — ANSI.
В программах на ассемблере мы тоже будем использовать ANSI — этого требует компилятор. А вот когда будем разбирать скриптовые языки, то файлы с исходниками можно будет сохранять в UTF-8.
- http://oldshatalov.ghost17.ru/ru/articles/theory/text_editors.html
- https://mb4.ru/text-editors/notepad/146-notepad-change-default-encoding.html
- http://workip.ru/stati/smena-kodirovki-teksta-v-bloknote.html
- https://besthard.ru/faq/kak-izmenit-kodirovku-v-vord/
- https://support.office.com/ru-ru/article/%D0%B2%D1%8B%D0%B1%D0%BE%D1%80-%D0%BA%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B8-%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0-%D0%BF%D1%80%D0%B8-%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%B8%D0%B8-%D0%B8-%D1%81%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8-%D1%84%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2-60d59c21-88b5-4006-831c-d536d42fd861