Карта сайта
Обслуживание компьютеров, ремонт компьютеров, 1С предприятие, обслуживание серверов,создание сайтов, продвижение сайтов, доработка 1С предприятие
О компании | Статьи | XML | Что такое XML

« Назад « На главную

Что такое XML

Расширяемый язык разметки (Extensible Markup Language, XML) — это не

просто последний крик моды в Интернете, но и быстро развивающаяся технология с мощными приложениями для реального мира, в частности для управления, отображения и организации данных. Вместе со своим языком отображения (XSL) и стандартизированной объектной моделью документа (DOM) XML является незаменимой технологией для каждого, кто использует языки разметки в сети или локально. Данная глава представляет некоторые основы XML и объясняет, почему так важно знать этот язык. В этой главе мы рассмотрим:

■    Две основные категории типов файлов — двоичные файлы и текстовые файлы, а также их достоинства и недостатки

 Историю, предшествующую XML, включая другие языки разметки — SGML и HTML

■    Структурирование XML-документов в иерархии информации

 Краткое введение в некоторые другие технологии, окружающие XML, с которыми нам придется встречаться по всей книге

 Области, в которых XML доказал свою полезность

Хотя в этой главе встречается несколько коротких примеров на XML, не думайте, что сразу станет понятен их смысл. Просто идея заключается в том, чтобы ввести некоторые важные понятия, находящиеся вне языка, чтобы на протяжении всей книги можно было понимать не только как работает XML, но и почему он работает именно так.

О данных, файлах и тексте

XML — это технология описания и структурирования данных, поэтому, прежде чем мы начнем разбираться в понятиях, находящихся вне языка, нужно понять, каким образом данные хранятся и считываются компьютером. Для наших целей все типы файлов с данными можно свести к двум: текстовые файлы и двоичные файлы.


Двоичные файлы


Двоичный файл в простейшем случае — это всего лишь последовательность битов (единиц и нулей). Разбираться, что все эти биты означают — задача приложения, создавшего некоторый файл. Именно поэтому двоичные файлы могут читаться и выдаваться определенными компьютерными программами, специально для этого созданными.

Например, когда документ создается некоторым текстовым процессором, то эта программа создает двоичный файл в только ему присущем формате. Программисты, создававшие этот текстовый процессор, решили вставлять в документы один определенный двоичный код для обозначения полужирного шрифта, другой код — для обозначения концов страниц и много других видов кода для обозначения всей той информации, которая должна сопровождать документы. Когда в текстовом процессоре открывается файл, то он (процессор) интерпретирует все специальные коды и выдает на экран или на принтер правильно отформатированный текст.

Коды, вставленные в документ, могут считаться метаданными, или информацией об информации (а именно: "Это слово должно быть выделено полужирным шрифтом", "Эта строка должна быть отцентрирована" и т.д.) Эти метаданные и отличают один тип файлов от другого; различные типы файлов используют различные типы метаданных.

Например, метаданные документа, созданного текстовым процессором, отличаются от метаданных документа, расположенного на листе бумаги, поскольку они описывают разные вещи. Более того, документы, созданные двумя различными текстовыми процессорами, также имеют различные метаданные, поскольку эти процессоры создавались независимо друг от друга.


Как видно из рисунка, документ, созданный одним текстовым редактором, не может быть прочтен или использован другим, поскольку каждая компания, создающая текстовые процессоры, имеет свой собственный формат текстовых файлов, т.е. документы в формате Word могут открываться только процессором Microsoft Word, а документы WordPerfect — только процессором WordPerfect.

К счастью, большинство текстовых процессоров поставляется вместе с трансляторами, которые могут переводить документы, созданные другими текстовыми реакторами, в формат, понятный для данного процессора. Конечно, многие из нас видели ту грязь, которая иногда получается в результате работы этих трансляторов; зачастую приложения, переводящие из одного формата в другой, не так хороши, как нам того хотелось бы.

Преимуществом двоичных файлов является то, что компьютер легко понимает такие двоичные коды, т.е. они обрабатываются значительно быстрее и очень эффективны для хранения метаданных. Но, как мы видели, недостатком двоичных файлов является их непохожесть. Вероятнее всего, файл, созданный одним приложением, не сможет быть открыт другим приложением и даже тем же приложением, запущенным на другой платформе.

Текстовые файлы

Как и двоичные файлы, текстовые файлы представляют собой последовательность битов. Однако в текстовых файлах эти биты группируются некоторым стандартным способом так, что они всегда образуют числа. Эти числа затем ставятся в соответствие символам. Например, допустим, что текстовый файл содержит биты:


1100001

Эта группа битов будет переведена в число "97", которое, в свою очередь, будет переведено в символ " а".

В данном примере сделано несколько допущений. Лучшее описание того, каким образом числа представляются в текстовых файлах.

Благодаря этим стандартам текстовые файлы могут читаться многими приложениями и даже человеком, использующим простейший текстовый редактор. Если некто создал текстовый документ, то его сможет прочитать кто угодно (из тех, конечно, кто знает английский) с помощью какого угодно текстового редактора. Это существенно упрощает процесс передачи информации другим людям.

Следующий рисунок показывает лишь часть приложений на моем компьютере, умеющих открывать текстовые файлы. Некоторые из этих программ позволяют просматривать текст, а другие позволяют еще и редактировать его.


Microsoft Word        Notepad        WordPad        FrontPage

Netscape        Visual        Internet
Navigator        Studio        Explover

В самом начале Интернет почти полностью был ориентирован на текст, что позволяло людям общаться с относительной легкостью. Это повлияло на скорость, с которой Интернет был принят, и на повсеместное распространение таких приложений, как электронная почта, World Wide Web, группы новостей и др.

Недостатком текстовых файлов является неудобство и громоздкость добавления информации иного рода, другими словами, наших метаданных. К примеру, большинство текстовых процессоров позволяют сохранять документы в текстовом виде, но если этим воспользоваться, то исчезнет возможность выделить часть текста полужирным шрифтом или вставить двоичный файл с рисунком. Это будут просто слова, без всякого форматирования.

Краткая история разметки

Как вы могли заметить, двоичные файлы имеют свои преимущества (легко понимаются компьютером, компактны), а текстовые файлы —свои (универсальны в смысле взаимозаменяемости). Разве не был бы идеальным формат, в котором универсальность текстовых файлов сочеталась бы с эффективностью и широкими возможностями хранения информации двоичных файлов?

Идея об универсальном формате данных не нова. Фактически в течение всего времени существования компьютеров программисты пытались найти способы обмена информацией между различными компьютерными программами. Одной,.йз первых попыток совместить универсальный взаимозаменяемый формат данных с богатыми возможностями хранения информации был язык SGML (Standard Generalized Markup Language — стандартный обобщенный язык разметки). При работе с текстом этот язык может использоваться для разметки данных (читай — добавления метаданных) способом, который можно назвать наглядным (вскоре вы поймете, какой смысл вкладывается в термин "наглядный").

SGML разрабатывался в качестве стандартного способа разметки данных для любых целей и нашел свое применение в основном в больших системах,работающих с документами. Выяснилось, что при обработке огромного количества сложных данных появляется масса моментов, которые необходимо учитывать, поэтому SGML — очень сложный язык. Зато вместе со сложностью он обретает мощность.

Самым известным приложением SGML является гипертекстовый язык разметки (HTML, HyperText Markup Language). Решение создать специальный словарь — HTML — и использовать его в качестве универсального языка разметки для вывода информации и для установления связей между различными частями информации оказалось правильным, поскольку законы создания SGML-документов детально разработаны и SGML очень широко применялся в системах обработки документов. Идея заключалась в том, чтобы любой HTML-документ (иначе — Web-страница) мог быть представлен в любом приложении, понимающем HTML (и называемом Web-браузером).


Такой браузер должен быть способен не только вывести документ, но и, если страница содержит гиперссылки на другие документы, с тем же успехом найти эти другие документы. Гиперссылка — это всего лишь указатель на другой документ где-то в другом месте. При щелчке мышью по гиперссылке на Web-странице в окне браузера вместо текущей страницы появляется страница, на которую указывает эта ссылка. Это как раз то, что делает World Wide Web "паутиной": любой HTML-документ может потенциально иметь ссылку на любой другой HTML-документ. Так, если бы я захотел создать сайт о гитарах, я мог бы поместить там ссылки на Web-сайты своих любимых производителей гитар или своих любимых гитаристов, даже если эти сайты сделаны другими людьми, с которыми у меня нет никаких контактов.

Более того, поскольку HTML основан на тексте, каждый может создать HTML-страницу с помощью простого текстового редактора или одного из редакторов Web-страниц.
Многие текстовые процессоры, такие как WordPerfect и Word, позволяют сохранять документы в виде HTML. Задумайтесь о переплетении этих двух диаграмм: любой HTML-редактор, включая простой текстовый редактор, может создать HTML-файл, который затем может быть просмотрен любым браузером Интернета!














14 Июль 2011 г.



метки:



Вверх

Подписаться на RSS

  • Новости
  • Статьи
  • Разделы статей

    Наши контакты

    +7 922 292-00-34

    +7(343)361-52-00

    Напишите нам через форму!!!

    Быстрая форма связи с нами

     
    Ваше имя?*
    Как с Вами связаться?*
    Опишите вопрос или сообщение*
    Введите код *


    Знаком (*) выделены обязательные поля.
    Каталог интернет ресурсов - ИнфоПитер
    1С Предприятие
    1С Предприятие

    Антивирусная защита, FireWall
    Антивирусная защита, FireWall

    Заправка Samsung/Xerox
    Заправка Samsung/Xerox

    Заправка картриджей Brother
    Заправка картриджей Brother

    Заправка картриджей Epson/Konica Minolta
    Заправка картриджей Epson/Konica Minolta

    Заправка картриджей HP/Canon black
    Заправка картриджей HP/Canon black

    Заправка картриджей HP/Canon color
    Заправка картриджей HP/Canon color

    Заправка картриджей Lexmark
    Заправка картриджей Lexmark

    Информационные услуги
    Информационные услуги

    Монтаж локальной сети
    Монтаж локальной сети

    Монтирование кабель каналов
    Монтирование кабель каналов

    Настройка внутреннего оборудования
    Настройка внутреннего оборудования

    Настройка работоспособности переферийного оборудования
    Настройка работоспособности переферийного оборудования

    Обслуживание компьютеров
    Обслуживание компьютеров

    Обслуживание серверов
    Обслуживание серверов

    Оптимизация веб сайтов
    Оптимизация веб сайтов

    Разовые услуги
    Разовые услуги

    Ремонт
    Ремонт

    Ремонт оргтехники
    Ремонт оргтехники

    Создание веб (WEB) сайтов
    Создание веб (WEB) сайтов


    упвап

    Юридические услуги
    Юридические услуги

    Наверх

    ООО "Бизнес Технологии"© 2010 г.

    Написать автору

    Карта сайта