oldi

Полезные сервисы для работы с документами

Светлана Шляхтина

Обмен документами и совместная работа над ними

Распознавание текста

Конвертирование PDF-документов в форматы Word и Excel

Быстрое сравнение документов

Перевод фрагментов текста

Создание диаграмм и схем

 

Работать с документами приходится практически всем, и зачастую это отнимает очень много времени. Однако существует немало программ и онлайновых сервисов, которые могут упростить и ускорить решение ряда офисных задач. Так, если воспользоваться OCR-системой — отсканировать документ и распознать через нее текст, — это потребует гораздо меньше усилий и времени, нежели ввод соответствующего текста с клавиатуры. Если предварительно конвертировать PDF-документы в форматы Word/Excel, то после копирования фрагментов таких документов в собственные материалы (например, для подтверждения тезисов статистическими и аналитическими данными) уже не придется приводить их к нормальному виду, что потребовалось бы при копировании напрямую из PDF-файлов. Если процесс сравнения разных версий документов на предмет различий поручить компьютеру (а не просматривать тексты вручную), то опять же удастся выиграть немало времени, да и избежать досадных ошибок. И это далеко не всё — подобных примеров оптимизации можно привести множество.

Вопрос лишь в том, чему отдать предпочтение — офлайновым решениям или онлайновым сервисам. Спору нет, функциональность специализированных приложений для работы с документами, как правило, оказывается на порядок выше, чем у онлайновых сервисов, но и освоить их сложнее, да и цена таких приложений обычно впечатляет. В свою очередь, преимущество онлайновых сервисов заключается в простоте применения и, нередко, бесплатности. Кроме того, воспользоваться подобным сервисом можно с любого подключенного к Интернету компьютера, что актуально, ведь многим приходится работать на разных компьютерах (и не на всех нужное ПО установлено). Есть и еще один важный нюанс — сервисы существенно упрощают обмен документами, что важно при совместной работе над ними.

Обмен документами и совместная работа над ними

В современном мире связанные в разных проектах сотрудники (или просто объединенные некой целью друзья) нередко находятся далеко друг от друга (в разных городах и даже странах), что вызывает определенные сложности при необходимости обсуждения и согласования документов. В принципе, существует немало способов быстрого обмена документами в Сети — можно отправлять файлы по электронной почте, хранить их на FTP-серверах, размещать в файлообменниках либо онлайновых хранилищах и пр. Однако все эти варианты, по сути, предполагают одну и ту же технологию работы: одним пользователем создается исходный документ, тем или иным способом он предоставляется второму пользователю, который загружает соответствующее приложение (например, MS Word), вносит правки в режиме рецензирования и тем же способом переправляет документ своему коллеге. Затем всё повторяется по кругу. Разумеется, при серьезных правках со сложным форматированием данный подход оправдан. Однако чаще согласовывать, причем многократно, приходится не элементы форматирования, а какие­то конкретные формулировки текста и цифры. Подобное согласование правок может быть организовано более оперативно: через онлайновые сервисы, предназначенные для совместной работы над документами, например Google Docs (https://docs.google.com/) или Zoho Docs (http://docs.zoho.com/).

Такие сервисы обладают всем необходимым функционалом для организации совместной работы над документами в рамках конкретных проектов. Принцип работы, как правило, следующий — документы хранятся не на локальных компьютерах, а на специальных серверах и доступны только тем пользователям, для которых авторами документов были установлены соответствующие права (на чтение либо редактирование). Для чтения и правки документа нет необходимости загружать соответствующее программное обеспечение — это можно осуществить, используя функционал сервиса. Более того, допускается не только редактирование, но и комментирование различных расчетов, данных, фрагментов таблиц и пр., что часто требуется в ходе совместной работы. При этом работать с документами можно на любом компьютере с доступом к Интернету, что актуально для мобильных пользователей. Кроме того, полностью исключена какая-либо путаница с разными версиями одного и того же документа, ведь всем пользователям доступна одна и та же (всегда последняя) копия документа. В итоге время на совместную работу с документами заметно сокращается.

Сервис Google Docs изначально предназначался исключительно для работы с офисными документами и обеспечивал возможность создания и редактирования текстовых документов, таблиц и презентаций с рисунками (загруженными либо созданными в среде простейшего графического редактора прямо на сервисе). Теперь, помимо офисных документов, разрешается хранить фотографии и видеоматериалы. Документы размещаются в коллекциях (рис. 1) и могут создаваться с нуля либо загружаться уже в готовом виде в популярных файловых форматах, включая DOC, XLS, ODT, ODS, RTF, CSV, PPT и пр. Возможности форматирования создаваемых документов минимальны, но вполне достаточны для согласования материалов.

 

Рисунок

Рис. 1. Организация документов на Google Docs

Доступ к файлам может быть приватным, по ссылке и публичным в случае их публикации. Для безопасной совместной работы с документами оптимальным является приватный доступ, при котором для избранных пользователей настраиваются права доступа (редактирование или чтение) к конкретным документам либо коллекциям. Наряду с обычным редактированием предусмотрена возможность вставки комментариев (рис. 2). Устанавливать доступ по ссылке имеет смысл при необходимости открытия доступа к информации большой группе пользователей — например преподаватель может таким способом предоставить учебные материалы студентам курса. Публикация открывает доступ к документам всем пользователям без исключения.

 

Рисунок

Рис. 2. Добавление комментария к документу через Google Docs

Общий объем предоставляемого на сервисе Google Docs пространства ограничен одним гигабайтом — дополнительное пространство оплачивается (20 Гбайт — 5 долл. ежегодно, 80 Гбайт — 20 долл. ежегодно и т.д.).

Сервис Zoho Docs позволяет не только создавать текстовые документы, электронные таблицы и презентации и обмениваться ими, но также может использоваться в качестве онлайнового хранилища, куда можно загрузить фотографии, музыкальные композиции и видео. Спектр разрешенных для закачивания форматов очень широк — можно загружать даже ZIP-архивы с последующей их распаковкой средствами Zoho Docs и импортировать документы, хранимые на сервисе Google Docs. Размещаются документы и прочие материалы по папкам и рабочим областям (workspace). Папки необходимы для эффективной организации персональных документов (рис. 3), а рабочие области предназначены для совместной работы над документами (для удобства ориентации внутри рабочих областей также могут создаваться папки). В плане организации предусмотрена возможность назначения файлам тэгов, что может оказаться полезным для их быстрого поиска в дальнейшем. Что касается форматирования, то возможности здесь куда внушительнее, чем на сервисе Google Docs, хотя, на наш взгляд, это не очень принципиально, поскольку создавать эффектно оформленные документы гораздо удобнее в традиционных программных решениях (в частности, в продуктах MS Office), а онлайновые сервисы разумнее использовать для обмена документами и быстрого их согласования.

 

Рисунок

Рис. 3. Управление документами в среде Zoho Docs

Любые файлы и папки, хранимые на сервисе Zoho Docs, можно расшаривать для обеспечения совместной работы с документами, причем открывать доступ к ним разрешается не только для конкретных пользователей, но и для целых групп. Последнее очень удобно, когда требуется обеспечить доступ к серии документов сразу нескольким пользователям, совместно работающим в рамках конкретного проекта. Еще удобнее при работе над определенными проектами использовать рабочие области (для каждого проекта свою), открывая доступ к ним группам коллег. В таком случае все пользователи группы будут получать доступ к вновь добавляемым в рабочую область документам автоматически, упрощается и организация доступа к документам для новых участников групп, ведь достаточно будет просто внести нового сотрудника в состав группы. В зависимости от уровня доступа пользователи получают возможность чтения открытых ими документов либо их редактирования, в ходе редактирования возможно внесение комментариев (рис. 4).

 

Рисунок

Рис. 4. Комментирование документа в среде Zoho

Размер предоставляемого на сервисе Zoho Docs пространства и количество рабочих областей зависят от выбранного тарифа. В случае бесплатного тарифа Free отводится 1 Гбайт пространства и разрешается создать лишь одну рабочую область. В коммерческих тарифах Standard (3 долл. в месяц) и Premium (5 долл. в месяц) бесплатно выделяется всё тот же 1 Гбайт, но количество рабочих областей уже может достигать 10 и 20 соответственно, а кроме того, допускается увеличение предоставляемого пространства под файлы за дополнительную плату.

Распознавание текста

Бывают случаи, когда при подготовке документов в электронном виде приходится вставлять в них фрагменты из бумажных документов — например добавлять обширные цитаты в рефераты, курсовые работы или диссертации, вносить изменения в бумажные документы, не набирая их заново на клавиатуре, и пр. Если под рукой имеется сканер или фотоаппарат, то быстрее (хотя тут всё зависит от объема текста) может оказаться отсканировать (сфотографировать) документ и распознать текст через OCR-систему, воспользовавшись соответствующим онлайновым сервисом. С помощью подобных сервисов можно быстро конвертировать изображения документов (отсканированных или сфотографированных) в редактируемые текстовые форматы.

Онлайновых сервисов, предлагающих соответствующие возможности, в Сети довольно много, включая ресурсы, поддерживающие распознавание русскоязычных текстов. Одни ресурсы полностью бесплатны, но чаще всего имеют определенные ограничения на объем изображений и количество распознанных за фиксированный промежуток времени материалов. В других требуется постраничная оплата — чисто символическая в сравнении со стоимостью офлайновых OCR-систем, в большинстве своем рассчитанных на корпоративных пользователей.

К сожалению, большинство протестированных нами ресурсов с распознаванием русскоязычного текста справлялось плохо, причем даже идеальных с точки зрения исходного качества материалов. В качестве «идеального» документа мы взяли обычный скриншот с текстом, а на роль сложного для распознавания материала выбрали посредственно отсканированное изображение (документ был отсканирован под наклоном и содержал немало «мусора») — рис. 5.

 

Рисунок

Рис. 5. Исходные документы

Перебрав больше десятка онлайновых сервисов, мы остановились всего на трех ресурсах: Ocr Terminal (https://ocrterminal.com/), Online OCR (http://www.onlineocr.net/) и FineReader Online (http://finereader.abbyyonline.com/ru). Первый из названных сервисов поддерживает 20 языков и позволяет бесплатно распознавать до 20 страниц в месяц — если нужно больше, то придется платить от 4 до 9 центов за страницу (в зависимости от общего количества страниц). Сервис Online OCR понимает 32 языка, полностью бесплатен и позволяет распознавать до 15 документов в час. В FineReader Online поддерживается 37 языков распознавания, но разрешается бесплатно распознать всего три страницы. Все последующие страницы покупаются; расценки определяются общим количеством страниц (20 страниц — 3 долл., 50 страниц — 5 долл. и т.д.).

Технология распознавания текста через онлайновые OCR-сервисы теоретически никаких сложностей не вызывает: требуется загрузить исходный файл, выбрать язык и формат сохранения документа и запустить процесс распознавания (рис. 6).

 

Рисунок

Рис. 6. Распознавание документа с помощью FineReader Online

Все три названных сервиса хорошо (и в целом на равных) справились с распознаванием скриншота с текстом (рис. 7), а вот более­менее корректно распознать сложный документ удалось только первым двум из них (рис. 8), в то время как результаты FineReader Online оказались неудовлетворительными (рис. 9).

 

Рисунок

Рис. 7. Результат распознавания простого текста в FineReader Online

Рисунок

Рис. 8. Результат распознавания сложного текста через Ocr Terminal

Рисунок

Рис. 9. Результат распознавания сложного текста с помощью FineReader Online

Справедливости ради нужно отметить, что пользователям уже упоминавшегося онлайнового сервиса Google Docs теперь также предоставляется возможность оптического распознавания файлов, загружаемых на сервис. Распознаваться могут графические файлы (JPG, PNG и GIF) и PDF-документы. Поддержка русскоязычных документов сегодня уже реализована, однако качество распознавания пока оставляет желать лучшего (рис. 10).

 

Рисунок

Рис. 10. Результат распознавания простого документа через сервис Google Docs

Конвертирование PDF-документов в форматы Word и Excel

Нередко при подготовке материалов приходится использовать данные из PDF-документов. Увы, при копировании через буфер обмена фрагментов из таких документов пользователям гарантирована дополнительная работа по приведению скопированных фрагментов в божеский вид, поскольку оформление исходного PDF-документа теряется.

Поэтому гораздо разумнее вначале обработать файл в PDF-формате специальным конвертором, в частности онлайновым, и получить на выходе вполне читабельный документ в формате MS Word или MS Excel. В качестве примера подобных онлайновых инструментов можно привести сервисы PDFConverter (http://www.freepdfconvert.com/), Pdftoword.com (http://www.pdftoword.com/) и Zamzar.com (http:// www.zamzar.com/). С их помощью осуществить подобное конвертирование проще простого (рис. 11) — достаточно загрузить на сервис интересующий вас PDF-файл, выбрать желаемый формат, указать свой адрес электронной почты и запустить процесс конвертирования. После этого буквально через пару минут пользователю придет почтовое сообщение с конвертированным документом либо ссылкой на него (вариант зависит от сервиса).

 

Рисунок

Рис. 11. Конвертирование PDF-документа через сервис PDFConverter

PDFConverter умеет преобразовывать PDF-документы в форматы DOC, RTF и XLS, причем результаты конвертирования просто идеальны (рис. 12) — никаких прямоугольных блоков с отдельными фрагментами текста (что нередко получается после работы ряда программ-конверторов) и даже таблицы оказываются редактируемыми.

 

Рисунок

Рис. 12. Документ в формате DOC, полученный с помощью сервиса PDFConverter

Pdftoword.com умеет преобразовывать PDF-документы в форматы DOC или RTF, очень корректно распознавая текстовые блоки, однако таблицы он преобразует в изображения, что делает невозможным в дальнейшем редактирование табличной информации.

Сервис Zamzar.com может использоваться не только для конвертирования PDF-файлов в форматы DOC или RTF, но и для других направлений конвертирования (скажем, изображений и музыки из одного формата в другой) и поддерживает пакетный режим обработки данных. Однако полученные из PDF-файлов с его помощью Word-документы имеют не столь высокое качество (как в PDFConverter), поскольку могут (хотя далеко не всегда) включать прямоугольные блоки данных. Кроме того, таблицы при обработке документов на сервисе Zamzar.com воспринимаются как текст, дополненный графикой, — в итоге они получаются нередактируемыми, хотя внешний вид таблиц полностью корректен и столбцы со значениями отображаются без каких­либо смещений (рис. 13).

 

Рисунок

Рис. 13. Вид документа MS Word, созданного сервисом Zamzar.com

Быстрое сравнение документов

Зачастую в процессе работы приходится сравнивать между собой на предмет изменений различные версии документов — например исходную и измененную редакции материалов, подготовленных в Word, рабочую и обновленные версии прайс­листов с изменившимися ценами в Excel, разные версии текстовых документов (в частности, программного кода) и т.п. Сравнивать документы вручную — процесс долгий и утомительный, при этом всегда существует вероятность при просмотре не заметить различия в каких­то важных данных.

Для быстрого решения проблемы можно обратиться к специализированным сервисам быстрого сравнения, которые позволяют сравнивать два блока текста прямо в интернет-браузере. Если речь идет о выявлении различий в текстах англоязычных документов, то подойдет любой сервис — с русскоязычными текстами (из-за проблем с кодировкой) и таблицами (вследствие неудачного отображения итоговых данных) сложнее. Перебрав множество соответствующих ресурсов, мы остановились на трех: Text-Compare (http://text-compare.com/), TextDiff (http:// www.textdiff.com/) и Quick Diff (http://www.quickdiff.com/), с помощью которых можно сравнивать фрагменты текста, таблицы и программный код.

Для сравнения двух фрагментов с помощью упомянутых сервисов достаточно скопировать их в соответствующие окна, а затем запустить процесс сравнения, по окончании которого различающиеся (в том числе отсутствующие в одном из документов) фрагменты текста в сравниваемых документах окажутся выделенными. В случае Text-Compare оба исходных фрагмента после завершения операции вновь выводятся на экран и отличающиеся элементы в них выделяются цветом (рис. 14), при этом в таблицах (рис. 15) и программном коде дополнительно отмечаются строки с отличиями.

 

Рисунок

Рис. 14. Сравнение текста через сервис Text-Compare

Рисунок

Рис. 15. Сравнение таблиц с помощью сервиса Text-Compare

Результаты отображения процесса сравнения через сервис TextDiff выглядят иначе: на экран выводится только один результирующий фрагмент, в котором зеленым цветом выделяется текст, появившийся во втором фрагменте (то есть отсутствующий в первом), а красным — удаленный текст. При сравнении текстовых блоков это окажется удобным (рис. 16), в случае небольших фрагментов таблиц — приемлемым (рис. 17), однако использовать данный ресурс для сравнения больших таблиц вряд ли оправданно, поскольку найденные различия отображаются построчно в текстовом формате (без номеров строк и сохранения видимости столбцов).

 

Рисунок

Рис. 16. Сравнение текстов через сервис TextDiff

Рисунок

Рис. 17. Сравнение таблиц с помощью сервиса TextDiff

Принцип представления результатов в Quick Diff точно такой же, как и в TextDiff, за исключением того, что удаленные из второго фрагмента данные не только отображаются другим цветом, но еще и зачеркиваются (рис. 18). При этом к сложностям сравнения больших таблиц (вызванным построчным отображением данных) добавляется еще одна проблема — некорректное распознавание кириллицы.

 

Рисунок

Рис. 18. Сравнение программного кода через сервис Quick Diff

Таким образом, сервис Text-Compare может использоваться для сравнения текстов, таблиц и программного кода безо всяких ограничений. Сервисы TextDiff и Quick Diff прекрасно сравнивают тексты (в случае Quick Diff не на русском языке) и программный код и могут быть использованы для сравнения небольших табличных фрагментов.

Справедливости ради нужно отметить, что сервис Google Docs теоретически также позволяет выявлять различия в текстах — путем сравнения версий документа (меню File —> See Revision History). Однако для сравнения документов это неудобно, поскольку соответствующая возможность предназначена не для сравнения, а для возврата к предыдущей версии документа.

Перевод фрагментов текста

В настоящее время нередко приходится иметь дело с документами на иностранных языках. Если речь идет о небольших фрагментах текста, то устанавливать солидную систему машинного перевода необязательно — проще воспользоваться услугами онлайнового переводчика, тем более что на просторах Сети таких переводчиков сегодня довольно много.

В их числе можно назвать сервис перевода Google Translate (http://translate.google.com/), систему машинного перевода Babel Fish (http://babelfish.altavista.com/), онлайн-переводчик PROMT Translate.Ru (http://www.translate.ru/) и др. Для перевода текста в этих системах нужно скопировать в соответствующее окно исходный текст, задать направление перевода и запустить процесс. После этого (обычно в расположенном рядом окне) будет отображен переведенный текст (рис. 19).

 

Рисунок

Рис. 19. Перевод текста с помощью Google Translate

Заметим, что на онлайновых сервисах могут быть ограничения в отношении объемов переводимых фрагментов — к примеру в онлайн-переводчике ПРОМТ за один раз разрешается переводить тексты объемом не более 3 тыс. символов, включая пробелы и знаки конца параграфа (либо 10 тыс. для зарегистрированных пользователей — регистрация бесплатна).

Кроме того, есть еще один нюанс — результаты машинного перевода, как правило, сразу использовать нельзя (все­таки перевод далек от идеального). В итоге приходится довольно внимательно сопоставлять исходный и переведенный тексты, а это возможно только для сравнительно небольших фрагментов, ведь размеры окон с текстами в интернет-браузере ограниченны.

Создание диаграмм и схем

Сопровождение текстовой и числовой информации наглядным представлением данных в виде разнообразных диаграмм и схем оказывается намного эффективнее — информация быстрее воспринимается и легче усваивается. Обычно для получения подобных диаграмм или схем принято использовать весьма недешевые специализированные программные продукты (например, Microsoft Office Visio). Поэтому в случае работы на компьютере, где соответствующее ПО не установлено, либо при эпизодическом создании диаграмм и схем (когда особого смысла в приобретении специализированного софта нет) можно воспользоваться такими онлайновыми сервисами, как Gliffy (http://www.gliffy.com/) или DiagramAnywhere (http://drawanywhere.com/).

Gliffy — это сервис для создания разного рода диаграмм и схем: организационных и бизнес-диаграмм, планов-графиков, схем компьютерных сетей и телекоммуникаций, блок-схем, расписания проектов и т.п. Строятся такие диаграммы с чистого листа либо на базе встроенных (рис. 20) или самостоятельно созданных шаблонов из объектов-заготовок путем визуального конструирования (рис. 21). Готовые документы сохраняются на сервере либо экспортируются в графические форматы изображений (JPG, PNG и SVG) с последующим сохранением их на компьютере пользователя. Возможен экспорт в формат MS Visio и вывод на печать с подгонкой диаграммы на один лист либо разбиением на несколько листов. Диаграммы могут быть публичными и приватными, возможна организация совместной работы над диаграммами нескольких пользователей.

 

Рисунок

Рис. 20. Выбор шаблона организационной диаграммы на сервисе Gliffy

Рисунок

Рис. 21. Визуальное конструирование диаграммы в среде Gliffy

Размер предоставляемого на сервисе Gliffy пространства и количество создаваемых диаграмм зависят от выбранного тарифа. В бесплатном тарифе Basic отводится 2 Мбайт пространства и разрешается создать всего пять публичных диаграмм. В коммерческом тарифе Premium (5 долл. в месяц) объем предоставляемого пространства и количество диаграмм (публичных и приватных) неограниченно.

Сервис DiagramAnywhere также предназначен для создания блок-схем, организационных диаграмм, схем компьютерных сетей и иных типов диаграмм, планов и схем с чистого листа или на базе шаблонов (рис. 22). Принцип построения их такой же, как и на сервисе Gliffy, за исключением одного нюанса: нужный шаблон диаграммы придется предварительно скопировать в свой аккаунт. Готовые документы сохраняются на сервере, выводятся на печать и/или экспортируются в графические форматы изображений (JPG, PNG, TIFF и GIF) либо в формат PDF с сохранением на компьютере пользователя. Созданные на сервисе DiagramAnywhere диаграммы могут быть приватными (тогда они доступны только автору) или публичными (окажутся видимыми другим пользователям по ссылкам). Предусмотрена возможность копирования HTML-кода на диаграмму для вставки его в блог, форум или веб­страницу.

 

Рисунок

Рис. 22. Создание диаграммы по шаблону с помощью сервиса DiagramAnywhere

На сервисе DiagramAnywhere предусмотрены два тарифа: бесплатный демонстрационный Free (на 30 дней) и коммерческий Premium (30 долл. в год). В случае бесплатного тарифа объем предоставляемого пространства ограничивается 10 Мбайт и разрешается создать всего три диаграммы (публичные или приватные). Тариф Premium позволяет занимать под свои документы до 1 Гбайт пространства и создавать неограниченное количество диаграмм (как публичных, так и приватных).

 

В начало В начало

КомпьютерПресс 03'2011