Кракозябры (иероглифы) при копировании с PDF документа
Я не уверен, что следующие советы помогут для всех решить проблему, но частичное решение ее все же возможно.
Давайте сразу отбросим отсканированые и нераспознанные PDF документы, из которых просто невозможно скопировать текст. Это равносильно попытке копирования текста из обычной фотографии, сделанной на ваш смартфон. В таком случае текст нужно распознать специальной программой, вроде ABBYY FineReader.
Наша книга (тестовая) полностью поддерживает копирование текста и изображений. Но при попытке перенести такой текст в Microsoft Office Word, можно видеть такие нечитабельные символы как на скриншоте сверху статьи.
Способ 1 (длинный).
Чтобы узнать какие именно нужно инсталлировать на компьютер шрифты, нужно открыть наш PDF документ поддерживаемой программой (на примере PDF-XChange Viewer ). Далее идем в «Файл» → «Свойства документа» (можно нажать сочетание клавиш Ctrl + D).
Далее копируем и вставляем текст из PDF документа, выделяем его в Microsoft Office Word (или в другом офисном редакторе, который у вас установлен) и выбираем из списка недавно установленный шрифт. Все должно быть нормально. Снизу на скриншоте видно, что я намеренно применил нужный шрифт только на одно предложение, другую часть текста прочитать невозможно.
Способ 2 (быстро и удобно).
Способ 3 (онлайн).
Кто не хочет использовать программу Shtirlitz или она не работает, может использовать следующие онлайн сервисы для перекодирования (отдельные сервисы имеют ограничения по объему текста).

Обратите внимание, что кодирование нашей тестовой книги windows-1252. Для нас нужна кодировка windows-1251. Поэтому переходим на сервис online-decoder.com.
Там можно видеть окно, где написано «Скопируйте сюда текст». Вставляем наш непонятный текст и нажимаем на кнопку «Подбор». Такой способ будет правильно использовать если вам неизвестна система кодирования. Декодер попытается подобрать ее автоматически. Если вы знаете исходное кодирование своей кракозябры, то можете смело нажимать кнопку «Точно», указав перед этим кодирование, напротив текста «Я знаю нужные кодировки».

Второй сервис «artlebedev.ru». Есть два способа для декодирования: «Просто» и «Сложно». Первый вариант работает на автомате. Второй – дает возможность, при необходимости, указать исходное и конечное кодирование.

Третий онлайн сервис для декодирования текста «2cyr.com» имеет отличие от предыдущих в том, что позволяет выбирать язык. Кроме русского, доступен также и украинский язык интерфейса (и надеюсь, что кодирования также, просто не было возможности проверить).
Все три сервиса отлично работали на моей тестовой книге в формате PDF с кракозябрами.
Способ 4 (с помощью макросов для Microsoft Office Word ).
Еще один вариант для программы Microsoft Office Word. Никаких шрифтов ставить не нужно. Создаем макрос со следующим кодом:
Код 1: «Перекодирование 1252 в 1251»
Sub Corr1252_1251()
Dim s$, i&, j&
s = Selection
For i = 1 To Len(s)
j = AscW(Mid$(s, i, 1))
If j
Код 2: «Перекодирование 1252 в 1251 (с учетом русской буквы Ё)»
‘ Замена Ё и ё
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(168)
.Replacement.Text = «Ё»
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = ChrW(184)
.Replacement.Text = «ё»
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
End Sub
Выделяем вставленный текст с иероглифами. Тогда запускаем макрос на выполнение и получаем нормальный текст, который можно спокойно редактировать, изменять шрифты и т.д.
Для добавления готового макроса в Word делаем следующее:
Открываем редактор и переходим в «Вид».

Там находим кнопку «Макросы» и нажимаем на нее.


Даем для макроса имя (любое, оно будет автоматически изменено при полном копировании кода выше).

Откроется окно в котором можно заметить название нашего макроса. При желании можете оставить свое имя. Но лучше, чтобы не было ошибок, полностью заменить весь код на готовый (код смотрите сверху).

Как видно, макрос начинается так:
Sub названиемакроса()
дальше идет код макроса
End Sub
Название макроса может любым, но не цифры и не должно быть пробелов. Может быть так: декодирование_кракозябр_с_ё. Но не может быть так: декодирование кракозябр с ё.
То есть, для нас нужно заменить для нашего созданного пустого макроса весь текст с кодом, который показан выше.
После того как заменили, нужно закрыть окно редактирования макросов (можно нажать на иконку сохранения, хотя изменения сохраняются автоматически). Далее выделяем наш иероглифический текст, открываем макросы, выбираем из списка (если их у вас несколько) нужный и нажимаем на кнопку «Выполнить».

Ваш текст должен стать читабельным.

Источник макросов для Microsoft Office Word: http://wordexpert.ru
Как ни крути, но это не полное решение ситуации. Поиск после данных действий в самом PDF документе работать не будет. Проблема остается. Кто может подсказать ее решение, просьба писать в комментариях.
Что делать, если вместо текста иероглифы (в Word, браузере или текстовом документе)
Наверное, каждый пользователь ПК сталкивался с подобной проблемой: открываешь интернет-страничку или документ Microsoft Word — а вместо текста видишь иероглифы (различные «крякозабры», незнакомые буквы, цифры и т.д. (как на картинке слева…)).
Хорошо, если вам этот документ (с иероглифами) не особо важен, а если нужно обязательно его прочитать?! Довольно часто подобные вопросы и просьбы помочь с открытием подобных текстов задают и мне. В этой небольшой статье я хочу рассмотреть самые популярные причины появления иероглифов (разумеется, и устранить их).
Иероглифы в текстовых файлах (.txt)
Кодировка — это набор символов, необходимый для того, чтобы полностью обеспечить написание текста на определенном алфавите (в том числе цифры и специальные знаки). Более подробно об этом здесь: https://ru.wikipedia.org/wiki/Набор_символов
Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие. На экране появляются различные непонятные символы (см. рис. 1)…
Рис. 1. Блокнот — проблема с кодировкой
Как с этим бороться?
На мой взгляд лучший вариант — это установить продвинутый блокнот, например Notepad++ или Bred 3. Рассмотрим более подробно каждую из них.
Notepad++
Один из лучших блокнотов как для начинающих пользователей, так и для профессионалов. Плюсы: бесплатная программа, поддерживает русский язык, работает очень быстро, подсветка кода, открытие всех распространенных форматов файлов, огромное количество опций позволяют подстроить ее под себя.
В плане кодировок здесь вообще полный порядок: есть отдельный раздел «Кодировки» (см. рис. 2). Просто попробуйте сменить ANSI на UTF-8 (например).
Рис. 2. Смена кодировки в Notepad++
После смены кодировки мой текстовый документ стал нормальным и читаемым — иероглифы пропали (см. рис. 3)!
Рис. 3. Текст стал читаемый… Notepad++
Bred 3
Еще одна замечательная программа, призванная полностью заменить стандартный блокнот в Windows. Она так же «легко» работает со множеством кодировок, легко их меняет, поддерживает огромное число форматов файлов, поддерживает новые ОС Windows (8, 10).
Кстати, Bred 3 очень помогает при работе со «старыми» файлами, сохраненных в MS DOS форматах. Когда другие программы показывают только иероглифы — Bred 3 легко их открывает и позволяет спокойно работать с ними (см. рис. 4).
Если вместо текста иероглифы в Microsoft Word
Самое первое, на что нужно обратить внимание — это на формат файла. Дело в том, что начиная с Word 2007 появился новый формат — « docx » (раньше был просто « doc «). Обычно, в «старом» Word нельзя открыть новые форматы файлов, но случается иногда так, что эти «новые» файлы открываются в старой программе.
Просто откройте свойства файла, а затем посмотрите вкладку « Подробно » (как на рис. 5). Так вы узнаете формат файла (на рис. 5 — формат файла «txt»).
Если формат файла docx — а у вас старый Word (ниже 2007 версии) — то просто обновите Word до 2007 или выше (2010, 2013, 2016).
Рис. 5. Свойства файла
Далее при открытии файла обратите внимание (по умолчанию данная опция всегда включена, если у вас, конечно, не «не пойми какая сборка») — Word вас переспросит: в какой кодировке открыть файл (это сообщение появляется при любом «намеке» на проблемы при открытии файла, см. рис. 5).
Рис. 6. Word — преобразование файла
Чаще всего Word определяет сам автоматически нужную кодировку, но не всегда текст получается читаемым. Вам нужно установить ползунок на нужную кодировку, когда текст станет читаемым. Иногда, приходится буквально угадывать, в как был сохранен файл, чтобы его прочитать.
Рис. 7. Word — файл в норме (кодировка выбрана верно)!
Смена кодировки в браузере
Когда браузер ошибочно определяет кодировку интернет-странички — вы увидите точно такие же иероглифы (см. рис 8).
Рис. 8. браузер определил неверно кодировку
Чтобы исправить отображение сайта: измените кодировку. Делается это в настройках браузера:
Таким образом в этой статье были разобраны самые частые случаи появления иероглифов, связанных с неправильно определенной кодировкой. При помощи выше приведенных способов — можно решить все основные проблемы с неверной кодировкой.
Буду благодарен за дополнения по теме. Good Luck 🙂
Не копируется текст из PDF: причины, способы изменения формата и советы специалистов
Бывало у вас такое, что вам необходимо текст, присутствующий в каком-то PDF-документе, вставить в другую программу для редактирования, но в файле PDF текст не копируется? Как бы посоветовали поступить в такой ситуации? Далеко не многие пользователи догадываются о том, что можно воспользоваться не одним, а несколькими простыми способами, позволяющими «разрулить» ситуацию. Но для начала давайте остановимся на некоторых стандартных случаях и их причинах, а затем попробуем найти наиболее подходящее решение для каждого из них. Сразу стоит отметить, что изменять оригинальный формат документа не всегда целесообразно.
Почему текст из PDF не копируется?

Итак, первой и основной причиной невозможности копирования содержимого документов PDF большинство специалистов считает установку всевозможных запретов на подобные действия в самих файлах.
Это могут быть и пароли на открытие, и запреты на копирование, и даже защита документа при попытке вывода содержимого на печать. Еще одна не менее распространенная ситуация, связанная с тем, что текст из PDF не копируется, может быть связана с повреждением самого файла или нарушением его оригинальной структуры. Реже можно встретить и случаи, когда пользователь использует для извлечения текстового содержимого из PDF-документа не совсем подходящее приложение. Так, например, очень многие эксперты сходятся во мнении, что у Adobe Reader возможностей в сравнении с Acrobat гораздо больше. Поэтому, если текст из PDF не копируется в «Акробате», первым делом попробуйте выполнить аналогичную операцию в «Ридере». Вполне возможно, это даст желаемый результат. Но в большинстве случаев это, увы, не помогает, поскольку содержимое попросту защищено от копирования, а пароль скрыт глубоко внутри самого файла. Как обойти такие ограничения рассмотрим чуть позже, а пока остановимся еще на одной ситуации, которая тоже многих пользователей ставит в тупик.
Почему текст из PDF копируется иероглифами?
Теперь предположим, что защита от копирования в оригинальном документе не установлена и все вроде бы нормально. Но почему-то при переносе содержимого в другой редактор текст из PDF копируется иероглифами. Связано это только с тем, что оригинал имеет отличную от стандартной кодировку. Чаще всего специалисты в такой ситуации предлагают самый простой выход, при котором даже изменять начальный формат документа не потребуется. Исходя из того, что текст из PDF копируется с неправильной кодировкой, ее нужно сменить.
Для этого проще всего воспользоваться файловым меню любого редактора PDF, выбрать пункт «Сохранить как. » (Save As…), а затем в окне сохранения нажать кнопку параметров (Settings) и выбрать другую кодировку. Обычно достаточно поменять оригинальный стандарт на UTF-8. При повторном открытии документа текст можно будет скопировать и вставить в любой другой текстовый редактор в неизменном виде. Также перекодировать файл можно на каком-нибудь интернет-ресурсе вроде Decoder.
Как обойти запрет копирования в самом файле?
Теперь давайте посмотрим, что можно сделать для обхода всевозможных запретов и блокировок.
Если текст из PDF не копируется ни под каким предлогом, можете воспользоваться пиратским методом, выполнив снятие ограничений или удаление установленных паролей в программе PDF Password Remover. Если это результата не даст, можете зайти на какой-нибудь специализированный сайт вроде PDFPirate или FreeMyPDF и попытаться снять защиту там. Однако каждый должен понимать, что в случае с некоторыми официальными документами такая методика является противозаконной.
Открытие файла PDF в Word
Еще одна простая методика, рекомендуемая для устранения множества проблем с оригинальными PDF-документами, которые необходимо отредактировать, состоит в том, чтобы не копировать исходное содержимое в «просмотрщике» или редакторе PDF, а открыть файл непосредственно в той программе, с использованием которой предполагается производить редактирование.
В случае с текстовыми документами, проще всего воспользоваться универсальным «Вордом» и открыть искомый документ в этом приложении, выбрав соответствующий тип файла. Если документ откроется без проблем, его можно будет и отредактировать, и сохранить в нужном формате.
Как преобразовать текст PDF в Word?
Но давайте предположим, что исходный документ в текстовых редакторах не открывается (мало ли что может быть) и в «родных» редакторах текст из PDF не копируется.
В этом случае для преобразования файла именно в документ Word попробуйте в PDF-редакторе выбрать не копирование текста, а копирование файла в буфер обмена целиком, после чего вставьте содержимое в Word. Способ, конечно, далеко не самый удобный, поскольку вставка будет иметь графический формат, и отредактировать материал будет невозможно.
В этой ситуации оптимальным решением станет смена формата оригинального документа на любой другой. В интернете сейчас выложено достаточно много программ-конвертеров, например, PDF to Word Converter и др. В выбранном приложении обычно достаточно просто указать начальный файл и конечный формат после преобразования. При помощи таких апплетов, кстати, можно преобразовать PDF не только в Word. Существуют и программы для конвертирования в Excel.
Проблемы с самим текстом в PDF-документах
Иногда бывает и так, что в оригинальном файле текстовое содержимое могло быть изначально создано путем сканирования какого-то печатного документа. Совершенно очевидно, что при таком подходе текст был сохранен именно в графическом формате. При этом и на него могли быть установлены запреты на копирование или печать. Как поступить в такой ситуации?
Использование системы оптического распознавания
В этом случае на помощь приходят системы оптического распознавания OCR. Практически все эксперты сходятся во мнении, что оптимальным вариантом станет выбор пакета ABBY Finereader. Конечно, программа не бесплатная, но на просторах «Рунета» можно найти уже активированные (взломанные) версии или модификации с ключом активации.
В самом приложении в стартовом окне выбрать преобразование файла PDF/изображения в документ Word. Система самостоятельно распознает текст с картинки и отправит его в Word, после чего можно будет выполнить редактирование и сохранить новый документ.
Конвертирование в другие форматы
Наконец, если стоит задача преобразовать текст в другие нестандартные форматы, обычно для этих целей рекомендуется применять все те же конвертеры, выбирая либо узконаправленные программы (например, PDF to JPEG для конвертирования в графические файлы), либо универсальные приложения, поддерживающие не один, а несколько форматов, среди которых будет тот, что нужен. Иногда можно использовать и онлайн-сервисы, но это неудобно по соображениям больших временных затрат и ограничений по размеру добавляемых файлов (или их количеству).
Заключение
Подводя итоги, можно выделить несколько основных моментов. Во-первых, изменять исходный формат не всегда нужно, поскольку выполнить копирование можно либо в более продвинутом редакторе, как в случае с «Акробатом» и «Ридером», либо открыть файл непосредственно в той программе для работы с текстовым содержимым, в которую нужно вставить исходный материал, как в случае с Word. Во-вторых, для сброса паролей и запретов лучше всего применять специальные приложения (пусть даже это и выглядит незаконно). В-третьих, большинство конвертеров в процессе преобразования форматов запреты, как правило, игнорируют, так что и их использование выглядит весьма перспективным. В-четвертых, не стоит сбрасывать со счетов и системы распознавания текста, которые иногда выглядят даже лучше, чем все предыдущее. В-пятых, существует мнение, что иногда преобразование можно выполнить при помощи виртуальных принтеров, но такой вариант годится только для тех случаев, когда исходный текстовый фрагмент нужно преобразовать в графику.




















