Advertisement
Guest User

Can you provide some examples of why it is hard to parse XML

a guest
Dec 2nd, 2012
122
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 1.91 KB | None | 0 0
  1. Я всё время замечаю, как люди делают ошибку, пытаясь распарсить XML или HTML регулярными выражениями. Вот некоторые из причин того, что парсить XML или HTML сложно:
  2.  
  3. Люди хотели бы рассматривать файл как последовательность строк, но вот это -- правильный кусок:
  4.  
  5. <tag
  6. attr="5"
  7. />
  8.  
  9. Люди хотели бы считать < или <tag началом тега, но штуки наподобие вот такого правильны и попадаются в реальности:
  10.  
  11. <img src="imgtag.gif" alt="<img>" />
  12.  
  13. Люди часто хотели бы поставить открывающие теги в соответствие с закрывающими, но XML и HTML разрешают тегам содержать самих себя (с чем традиционные, старые регулярные выражения вообще не могут справиться):
  14.  
  15. <span id="outer"><span id="inner">foo</span></span>
  16.  
  17. Люди часто хотели бы найти содержимое документа (например. знаменитая задача "найдите все телефоны на этой странице"), но данные могут содержать разметку (даже если они выглядят обычно при просмотре):
  18.  
  19. <span class="phonenum">(<span class="area code">703</span>)
  20. <span class="prefix">348</span>-<span class="linenum">3020</span></span>
  21.  
  22. Комментарии имеют право содержать неверно отформатированные или неполные теги:
  23.  
  24. <a href="foo">foo</a>
  25. <!-- FIXME:
  26. <a href="
  27. -->
  28. <a href="bar">bar</a>
  29.  
  30. Какие ещё опасности вы знаете?
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement