Статьи из блога
Статьи из блога
Как преобразовать документ Word (*.doc) в формат HTML
Метки: html | конвертация | надстройки | преобразование | программы | формат
Четверг, 12 октября 2006 г.
Просмотров: 11722
Подписаться на комментарии по RSS
Версия для печати
Стандартные средства преобразования документов Word в формат HTML позволяют достаточно легко создавать Web-странички. Однако здесь есть и большой минус: в файл записывается очень много совершенно ненужной информации.
шзбавиться от этого и получить на выходе более легкий и правильный HTML-файл можно с помощью настроек Word и/или специальных программ.
С помощью функций редактора Word:
- Зайдите в меню Сервис и выберите команду Параметры. В диалоговом окне перейдите на вкладку Общие.
- Кликните на кнопку Параметры веб-документа. Откроется одноименное диалоговое окно, в котором на вкладке Обозреватели нужно выбрать браузер самой младшей версии, а в окне Параметры снять все галочки. Нажмите ОК и закройте диалоговые окна.
- При сохранении документа Word выберите команду Сохранить как веб-страницу и в поле Тип файла выберите формат Веб-страница с фильтром (*.htm, *.html).
Тем, у кого установлен Word 2000, на сайте Microsoft.com можно скачать HTML-фильтр - инструмент для удаления тегов разметки Office из документов Office 2000, сохраненных в формате HTML.
Однако, получившийся файл все равно будет еще содержать массу тегов, стилей. Здесь на помощь придут специализированные программы.
Во-первых, это рекомендованный Microsoft пакет макросов Перестройка 2000/2002. Можно скачать пакет применительно к используемой вами версии редактора Word. В этот пакет макросов входит и конвертор документов Word в HTML. Более подробно об этой программе я ничего сказать не могу, поскольку автор сразу предупреждает о том, что в Word 2003 этот пакет работать не будет. А пробовать и устанавливать весь пакет ради одной единственной функции я не посчитал нужным. Если кто-то тестировал этот пакет макросов, то прошу высказаться в комментариях или в письме.
Во-вторых, есть интересная утилита - WordCleaner от ирландской компании Zapadoo. С ее помощью можно достаточно быстро преобразовать одиночный документ или целую группу документов Word в HTML-файлы с более-менее чистым кодом.

Причем, утилита конвертирует в HTML не только "вордовские" *.doc-файлы, но может также преобразовывать rtf-файлы и txt-файлы, а также очищать уже переконвертированные html-файлы.
Для новичков предусмотрен пошаговый режим конврертирования, так называемый Wizard.
Утилита встраивается в контекстное меню, вызываемое щелчком по файлу правой кнопкой мыши, а также создает свою панель и помещает ее в Word.
Я протестировал эту программу на нескольких файлах и могу подтвердить хороший результат ее работы. Правда, мне показалось, что с таблицами она не очень хорошо справляется, а в целом ее можно только порекомендовать тем, кому частенько требуется осуществлять подобные конвертирования.
Отлично распознала таблицы и очистила файл от тонны мусора из лишних тегов третья программка, которую я хочу порекомендовать - HTML Cleaner.

Программа написана на языке Java, и исполняемый файл имеет расширение .jar. Для работы программы необходимо, чтобы на компьютере был установлен Java Run-time Environment (Java 2 RTE), версии не меньше 1.4.
Работает утилитка очень просто: достаточно нажать кнопку Select и выбрать нужный файл (в формате HTM, HTML) для преобразования. То есть, файл уже должен быть ранее преобразован в HTML-формат из Word-a. На выходе получается очень компактный и чистый html-код.
Если вы знаете какие-нибудь другие полезные утилиты или сервисы конвертирования документов Word в формат HTML, то прошу вас поделиться своими знаниями и впечатлениями.


Поиск
Рубрики
Подписка
Читают
Обсуждают
страницы
сайты
статистика
Комментариев: 16
был гдето онлайн сервис по преобразованию док в штмл
Есть такой сервис - через почтовый сервис Gmail.
Вот статья Андрея Крупина в Компьютерре: http://www.computerra.ru/gid/rtfm/internet/244268/
Конвертирует документы следующих форматов: pdf, doc, xls, ppt, rtf, sxw, sxc, sxi, sdw, sdc, sdd, и wml.
Есть еще вариант воспользоваться редактором Macromedia DreamWeaver. В нем есть специальная функция Commands -> Clean-up Word HTML.
Облазил весь интернет, и нигде не нашел утилитки, которая бы не тупо конвертировала из формата в формат, а разрезала DOC по заголовкам разных уровней, формируя отдельные html-файлы. Капец. :(
KIVagant, я на работе пользуюсь шаблоном WordToWeb (http://www.businesssite.ru/content.php?id=5). Она действительно выделяет все заголовки (3 уровня) и создает чистый HTML-файл.
А для php есть что-нибудь?
Последняя прога - это лучшее, что я когда либо видел.
Что касается gmail сервиса, дык там куча мусора остается так или иначе.
Теряются рисунки при преобразовании Ворд-текста в формат html. В ходе преобразования рисунки выделяются в файл (*.file) и редактор уже не может их вставить в Веб-текст. Что делать?
Здравствуйте.У меня не печатает документ
Microsoft Vord.
При открытии программы появляется окно - введите ключ продукта,но эту установку можно и отменить.
Печатать в документе невозможно сразу внизу выделяется:
-Такое изменение запрещено,поскольку выделенный фрагмент заблокирован.
Посоветуйте пожалуйста,что делать в таком случае,и как снять блокировку в данном документе?
Татьяна, я вижу один выход: зарегистрировать вашу версию офиса. Купить лицензию. Второй вариант (пользоваться пиратской версией) не рассматривается здесь и все подобные советы будут удалены.
помогите пожалуйста, я заблокировала текст в ворде от форматирования и изменений, а теперь мне надо его изменить, как снять блок как там пишут готового документа. читать я его могу но не могу изменять ошибки. заранее спасибо
Ольга, если у вас Word 2003, то в меню Сервис выберите команду "Снять защиту". Откроется область задач справа, где вы должны нажать кнопку "Отключить защиту".
Да, и если вы вводили пароль на защиту, то придется вспомнить его.
Спасибо, последняя малюсенькая программа творит чудеса. Боялась, что все придется руками редактировать и удалять, но она делает все сама
. Еще раз спасибо за обзор.
Большое спасибо за программу для очистки hmtl!
очень интересная статья, меня интересует конвертация одного большого файла doc или txt с автоматической разбивкой на несколько html файлов с параметрами, например количество символов или по заголовкам
dimadav, задание очень расплывчатое. Если вы готовы его уточнить, то я мог бы взяться за его выполнение за оплату. Также вы можете разместить заявку в соответствующем разделе нашего форума