TOT-RECODE II. Дешифровка кирилличных материалов

Илья Полещук

Кодировки кириллицы

   Когда все компьютеры были большими

   Так русифицировали DOS

   Кириллица и Windows

   Это надо знать, работая в RuNet

Пойми меня!, или Один подход к дешифровке кирилличных материалов

   … не поможет Быстрый Взгляд

   С TOT-RECODE II — в русском mail без шор

   Что нам стоит — Tot-Recode II настроить

   Как нам воссоздать текст

Заключение

 

От редакции. Мы неоднократно публиковали на нашем CD-ROM статьи и программное обеспечение для перекодировки кирилличных текстов. Однако данная тема остается весьма актуальной, и нам по-прежнему часто приходится слышать, что начинающие пользователи периодически испытывают существенные трудности при перекодировании русскоязычных сообщений. В связи с этим предлагаем вашему вниманию статью Ильи Полещука (системного администратора Львовских городских электросетей), рассматривающих работу с программой TOT-RECODE II, которую вы, кстати, можете установить с нашего диска.

Кодировки кириллицы

Кодовые таблицы, являясь одним из ключевых компонентов программного обеспечения, во многом определяют эффективность пользовательского интерфейса. Ниже будут рассмотрены основные этапы развития стандартов кодировки кириллицы, а также приведено сравнение особенностей их организации.

Как известно, кодовые таблицы используются для числовой идентификации символов, обеспечивающей их использование в операционных системах и в приложениях.

в начало

в начало

Когда все компьютеры были большими

На первых этапах развития вычислительной техники понятие кодовых таблиц отсутствовало, команды и данные вводились в виде двоичных мнемокодов. Когда их сменили команды ассемблера и языков программирования, а также символьные данные, для кодирования таковых был разработан стандарт ASCII (American Standard Code for Information Interchange). Его набор ограничен 128 символами и включает управляющие символы, буквы английского алфавита, числа, а также знаки препинания и основные арифметические операции. Поскольку ассемблер и языки программирования базировались на английском языке, упомянутых символов было вполне достаточно для представления всех необходимых программ и данных.

В свою очередь, СССР и странами СЭВ были разработаны стандарты КОИ-7 Н0 (Код для Обмена и обработки информации Набор 0) и КОИ-7 Н1. Первый являлся аналогом ASCII и использовался в большинстве стран СЭВ, а второй вместо букв английского алфавита содержал кириллицу и был распространен лишь в Болгарии и СССР.

в начало

в начало

Так русифицировали DOS

С началом разработки ПЭВМ, одной из основных функций которых являлась обработка текста, кодовые таблицы потребовалось дополнить соответствующим набором символов. В случае EASCII (Extended ASCII) такой набор символов составили распространенные в европейских языках буквы с дидактическими знаками (далее — дидактические буквы), а также псевдографические и научные символы. Последние включают буквы греческого алфавита и знаки алгебраических операций. Это существенно расширило диапазон обрабатываемых документов, в том числе позволило дополнять их таблицами, графиками и столбчатыми диаграммами.

В это время в СССР на базе КОИ-7 Н0 был разработан стандарт КОИ-8. Расширенную часть его набора составили кирилличные буквы, а также псевдографические и научные символы. Это позволило существенно снизить трудоемкость распространенной в СЭВ многоязычной обработки по сравнению с применением кодовых таблиц КОИ-7. Вместе с тем размещение псевдографических символов КОИ-8 не совпадает с их расположением в EASCII, что затруднило применение зарубежных программ, использующих псевдографику, в частности таких распространенных, как Norton Commander, электронные таблицы, СУБД.

Данный недостаток инициировал разработку множества самых разных восьмибитных схем кодировок кириллицы, из которых наибольшее распространение получили основная, альтернативная и модифицированная кодировки ГОСТ, а также болгарская кодировка.

Поскольку в настоящее время они практически не применяются, мы не будем их рассматривать. Отметим лишь, что наиболее удачной была модифицированная кодировка ГОСТ (МКГ), которая полностью повторяла EASCII по размещению псевдографических и научных символов и таким образом решила проблему совместимости зарубежных программ. В результате МКГ стала стандартом программ русификации, а также была использована при локализации DOS.

В свою очередь, выход на советский рынок зарубежных ХТ и АТ с нерусифицированным видео MDA и CGA потребовал разработки разнообразных транслитных кодировок, заменяющих кирилличные буквы сходными по звучанию или написанию с английскими.

в начало

в начало

Кириллица и Windows

При локализации Windows 3x за основу была взята кодировка EASCII, дидактические буквы которой заменили кирилличными. При этом порядок последних не совпадает с МКГ. В результате при открытии в Windows кирилличных документов DOS соответствующие буквы заменяются иными символами, что значительно осложняет восприятие текста.

Поскольку данный, принятый в Windows 3.1x/95/NT, способ локализации предполагает создание отдельных шрифтов для английского и национальных языков, при обработке многоязычных документов в среде упомянутых систем требуется установить необходимый набор шрифтов.

Ликвидацию этого недостатка в Windows 98/2000/M обеспечило применение 16-разрядных кодовых таблиц, позволяющее включить в один шрифт буквы нескольких языков. В русской и панъевропейской версиях это английский, русский, греческий, иврит, арабский, а также дидактические буквы, псевдографические, коммерческие и научные символы.

Наряду с существенным упрощением обработки многоязычных документов, изменение формата шрифтов делает невозможной обработку в Windows 95 кирилличных документов NotePad, WordPad и Word 6/95, созданных в Windows 98/2000/M. Перечисленные редакторы не различают формата шрифтов и присваивают кирилличным символам коды со значением, большим 255. Windows 95 воспринимает такие коды как ошибочные и заменяет соответствующие символы вопросительными знаками.

Устранение данного недостатка достигается либо интеграцией шрифтов Windows 95, либо переходом на Word 97/2000, которые корректно конвертируют кириллицу в формат Windows 95. Word 2000 также обеспечивает корректное конвертирование открываемых документов DOS.

При этом указанная особенность не распространяется на сообщения электронной почты, так как все версии Outlook Express используют одинаковые кодировки кириллицы.

Свою роль в несовместимость кирилличных кодировок внесла ISO (Industrial Standards Organization). Размещение символов в ее кодировке не совпадает с WinRus и КОИ-8.

в начало

в начало

Это надо знать, работая в RuNet

Сферы применения рассмотренных кодировок достаточно четко распределены. WinRus используется всеми версиями Windows и ее приложений, таких как MS Office и Star Office, графическими редакторами, средствами телеконференций и т.п. В свою очередь, КОИ-8 с небольшим отрывом лидирует в RuNet. Там же можно встретить ISO и транслит. Последний широко применяют зарубежные авторы, нередко не имеющие русской версии Windows.

В настоящее время наибольшее распространение получили три кодировки кириллицы – WinRus, КОИ-8 и транслит. Outlook Express обеспечивает однократное двухнаправленное конвертирование первых двух, а также редко используемых ISO и DOS. Поэтому обработка сообщений в транслитной кодировке и сообщений, перенесших многократное кодирование, требует предварительной трансляции специализированными утилитами.

в начало

в начало

Пойми меня!,

или Один подход к дешифровке кирилличных материалов

Отсутствие единого стандарта на кодировку кириллицы выдвигает задачу приведения русскоязычных документов к удобному для обработки формату. Ниже рассматривается методика решения данной задачи при помощи пакета TOT-RECODE II.

Как известно, автономность первых советских и зарубежных разработок операционных систем и приложений сказалась, в частности, на отсутствии единого стандарта кодировки кириллицы. В результате собственные шрифтовые схемы используют не только конкурирующие платформы — Mac OS, OS/2, Linux, NetWare, Windows, но и различные приложения одной системы, что осложняет распределенную обработку документов.

Этот недостаток особенно ощутим при электронной переписке. Помимо того, что сообщения изначально формируются на различных платформах и приложениях, передача e-mail нередко сопровождается перекодировкой, что обусловливает необходимость декодирования почты.

в начало

в начало

… не поможет Быстрый Взгляд

Outlook Express — штатный почтовый пакет Windows 9x — поддерживает все популярные кодировки кириллицы, однако обеспечивает лишь однократное преобразование. В свою очередь, возможности Microsoft Outlook и вовсе ограничены однократным преобразованием KOI8 à Win и обратно. В то же время для устранения транзитных перекодировок, как правило, требуется многократное преобразование входящих, которое, кроме того, необходимо для чтения в Outlook Express сообщений альтернативных пакетов, например Netscape Composer.

Все перечисленное обусловливает актуальность применения альтернативных средств декодирования сообщений. При этом следует отметить, что в «стерильных» условиях Intranet при организации всех клиентов на платформе Windows 9х, декодер Outlook Express, как правило, обеспечивает полноценную обработку сообщений от клиентов.

в начало

в начало

С TOT-RECODE II — в русском mail без шор

Тесты трансляторов, представленных на доступных Yandex сайтах RuNet, показали, что наиболее эффективно поставленную задачу решает Tot-Recode II. Этот пакет обеспечивает четырехуровневое преобразование, где каждый уровень поддерживает более 50 кодировок без учета обратных, а также ввод исходного текста как из буфера обмена, так и из одного либо из группы файлов. Несостоятельность конкурентов подчеркивают малое число используемых кодировок, отсутствие средств пакетной обработки, а зачастую и файлового интерфейса.

Определенный интерес представляют онлайновые базис-независимые трансляторы, например http://www.apdsoft.com/decoder/online.htm/. Однако на платформе Wintel они неконкурентоспособны.

Все перечисленное позволяет рекомендовать Tot-Recode II в качестве универсального декодера сообщений. Его дистрибутив — trsetup.exe — можно свободно получить на официальном сайте Tot-Recode II — recoder.da.ru. При этом удобный инсталлятор позволяет даже неискушенным пользователям грамотно выполнить все этапы установки.

По завершении инсталляции Tot-Recode II в меню Start создается раздел Tot-Recode II, содержащий утилиту дешифрации, а также удобную справочную систему и деинсталлятор.

в начало

в начало

Что нам стоит — Tot-Recode II настроить

Настройки, определяемые при инсталляции, обеспечивают качественную трансляцию текстов самых разных направлений. В свою очередь, опытные пользователи смогут изменить заданные по умолчанию и ввести собственные параметры.

Конфигуратор Tot-Recode II активизируется щелчком на кнопке с изображением руки и позволяет определить порядок и толерантность декодирования, в том числе способ преобразования транслитератов, а также задать шрифт и язык интерфейса (рис. 1).

Окно свойств, вызываемое щелчком на кнопке с изображением вопросительного знака, содержит сведения о версии Tot-Recode II и ссылку на официальный сайт (рис. 2).

При этом Tot-Recode II позволяет определить актуальность собственного обновления. Для этого следует щелкнуть на кнопке с изображением глобуса в верхней панели, после чего пакет сверяет свою версию с версией, размещенной на официальном сайте. В случае их различия выводится окно с описанием новой версии и ссылкой на данный сайт (рис. 3).

Отметим, что в случае подключения через proxy-сервер или при недостаточном быстродействии клиентской машины целесообразно сразу зайти на recoder.da.ru и самостоятельно произвести обновление Tot-Recode II.

в начало

в начало

Как нам воссоздать текст

После запуска Tot-Recode II открывается окно дешифратора, сверху и снизу которого расположены панели инструментальных кнопок, подписываемых при подведении курсора, а также индикатор процесса перекодировки (рис. 4).

Штатным режимом Tot-Recode II является трансляция текста из буфера обмена, открываемого щелчком на кнопке с изображением папки в верхней панели. В случае автоматического выбора кодировки трансляция начинается сразу после получения текста и продолжается до завершения выполнения всех возможных (более 500) вариантов преобразований, результаты которых отображаются в центральном окне в виде первых строк соответствующих вариантов (рис. 5). Для прерывания трансляции следует щелкнуть на кнопке с изображением прямоугольника, а для возобновления — на кнопке с изображением горизонтальной стрелки. Данные кнопки расположены в нижней панели инструментов.

При этом для просмотра результатов следует один либо два раза щелкнуть по строке соответствующего варианта. В первом случае оттранслированный текст отображается в текстовом (рис. 5), во втором — в функциональном окне (рис. 6). Оттуда его можно сохранить в файл (рис. 7), записать в буфер обмена либо распечатать. В свою очередь, выбранный вариант декодировки можно сохранить как схему для дальнейшего использования (рис. 8).

Кроме того, сохранение и буферизацию текста, сохранение схемы перекодировки, а также просмотр исходного текста (рис. 9) и результата можно реализовать непосредственно в окне дешифратора. Для этого следует щелкнуть соответственно на кнопках с изображением дискеты, двойного листа, буквы S на листе, а также на кнопках с изображением большой и малой букв А на фоне лупы. Указанные кнопки расположены в верхней панели инструментов.

Особо следует отметить, что в случае изменения содержимого буфера Tot-Recode II производит перекодировку автоматически, без повторного открытия буфера.

В свою очередь, при реализации одной из предопределенных схем трансляции исходный текст преобразуется лишь один раз — в соответствии с описанием схемы. Для первичного либо последующего выбора таковой следует щелкнуть на окне схем, расположенном в нижней панели инструментов. После этого просмотр списка схем осуществляется при помощи полос прокрутки, а выбор требуемой схемы — щелчком на ее названии. Возможности обработки исходного текста и результата аналогичны рассмотренным выше.

Штатный набор Tot-Recode II, включающий более 50 схем перекодировки, можно дополнить как вышеописанным сохранением вариантов автоматической перекодировки, так и прямым определением схем. В последнем случае следует щелкнуть на кнопке с изображением круга в нижней панели, после чего определить все либо часть фильтров (рис. 10). Вывод перечня преобразований осуществляется щелчком на кнопке соответствующего фильтра. Для сохранения схемы следует, задав ее название, щелкнуть на кнопке с изображением дискеты.

В свою очередь, для коррекции существующей схемы ее следует выбрать, после чего щелкнуть на кнопке с изображением треугольника в нижней панели и определить новые фильтры (рис. 11), а также сохранить ее под исходным либо новым именем.

Многоуровневость схем трансляции и наличие их редактора позволяет эффективно использовать Tot-Recode II не только для декодировки сообщений, но и для обеспечения их конфиденциальности шифрованием. Фильтр, приведенный на рис. 12, практически исключает восприятие зашифрованного текста (исходный текст приведен в окне NotePad) без специальных средств. Данное свойство особо практично в Intranet, как правило, не включающих системные средства шифрования, используемые почтовыми клиентами.

Помимо содержимого буфера обмена, Tot-Recode II обеспечивает обработку — как единичную, так и потоковую — текстовых файлов и сообщений электронной почты. В последнем случае обеспечивается автоматическое выделение текста сообщения.

Для открытия единичного файла следует щелкнуть на кнопке с изображением папки в верхней панели, после чего выбрать файл двойным щелчком на его названии (рис. 13).

Для осуществления пакетной обработки следует щелкнуть на кнопке с изображением пары дискет, выделить требуемые файлы и открыть их щелчком на кнопке Open (рис. 14). При этом автоматический выбор кодировки поддерживается лишь при обработке единичных файлов. В остальном возможности обработки пакетных файлов совпадают с возможностями обработки содержимого буфера и единичных файлов.

Дополнительные сведения о возможностях Tot-Recode II (рис. 15) можно получить как контекстно — нажатием клавиши F1, так и вызовом помощи щелчком на надлежащем значке.

в начало

в начало

Заключение

Таким образом, средства пакета Tot-Recode II обеспечивают эффективную дешифровку кирилличных сообщений. Его совместимость со всеми распространенными кодировками и форматами данных, а также наглядность интерфейса и разнообразность меню способствуют повышению качества работы и снижению ее трудоемкости.

При этом автоопределение кодировки эффективно при нерегулярности кодировок обрабатываемых сообщений. Наряду с этим при дешифрации сходных сообщений целесообразно использовать предопределенные схемы.

В свою очередь, на альтернативных — Linux/UNIX, OS/2 — платформах могут быть полезны онлайновые трансляторы.

КомпьютерПресс 12'2000

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует