old.kaloyan.info » ÐÐ°Ð¼Ð¸Ñ€Ð°Ð½Ðµ Ð½Ð° Ð»Ð¸Ð½ÐºÐ¾Ð²ÐµÑ‚Ðµ Ð² HTML ÐºÐ¾Ð´

октомври 6

ÐÐ°Ð¼Ð¸Ñ€Ð°Ð½Ðµ Ð½Ð° Ð»Ð¸Ð½ÐºÐ¾Ð²ÐµÑ‚Ðµ Ð² HTML ÐºÐ¾Ð´

ÐŸÑ€ÐµÐ´Ð¸ Ð¼Ð°Ð»ÐºÐ¾ Ð¿Ñ€Ð¾Ñ‡ÐµÑ‚Ð¾Ñ… ÐµÑ‚Ð¾ Ñ‚Ð¾Ð²Ð°:

Do not use REGEX to parse HTML

Perhaps the biggest mistake people make when trying to get URLs or link text from a web page is trying to do it using regular expressions. The job can be done with regular expressions, however, there is a high overhead in having preg loop over the entire document many times. The correct way, and the faster, and infinitely cooler ways is to use DOM.

By using DOM in the getLinks functions it is simple to create an array containing all the links on a web page as keys, and the link names as values. This array can then be looped over like any array and a list created, or manipulated in any way desired.

Note that error suppression is used when loading the HTML. This is to suppress warnings about invalid HTML entities that are not defined in the DOCTYPE. But of course, in a production environment, error reporting would be disabled and error reporting set to none.

http://phpro.org/examples/Get-Links-With-DOM.html

ÐŸÐ¾ Ð¿Ñ€Ð¸Ð½Ñ†Ð¸Ð¿ Ð²Ð¸Ð¶Ð´Ð°Ð¼ Ð»Ð¾Ð³Ð¸ÐºÐ°Ñ‚Ð°, Ð½Ð¾ Ð² Ð¼Ð½Ð¾Ð³Ð¾ ÑÐ»ÑƒÑ‡Ð°Ð¸ Ð»Ð¾Ð³Ð¸ÐºÐ°Ñ‚Ð° Ðµ Ð±Ð¸Ð»Ð° Ð¸Ð·Ð¾Ð±Ð»Ð¸Ñ‡Ð°Ð²Ð°Ð½Ð° Ð¾Ñ‚ Ð½ÑÐºÐ¾Ð»ÐºÐ¾ Ñ‚ÐµÑÑ‚Ð°. ÐÐ°Ð¸ÑÑ‚Ð¸Ð½Ð° Ð¼Ð¸ Ðµ Ð¸Ð½Ñ‚ÐµÑ€ÐµÑÐ½Ð¾ Ð¾Ñ‚ Ð´Ð²Ð°Ñ‚Ð° Ð¼ÐµÑ‚Ð¾Ð´Ð° (RegExp Ð¸ Dom), ÐºÐ¾Ð¹ ÐºÐ°ÐºÐ²Ð¸ Ñ€ÐµÐ·ÑƒÐ»Ñ‚Ð°Ñ‚Ð¸ Ñ‰Ðµ Ð´Ð°Ð´Ðµ. Ð¡ÑŠÑ‰Ð¾ Ñ‚Ð°ÐºÐ° Ðµ Ð²Ð°Ð¶ÐµÐ½ Ð¸ Ð¾Ð±ÐµÐ¼Ð° Ð½Ð° Ð¸Ð½Ñ„Ð¾Ñ€Ð¼Ð°Ñ†Ð¸ÑÑ‚Ð° – Ð½ÑÐºÐ¾Ð¸ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ð¸ ÑÐ° Ð½Ð°Ð¸ÑÑ‚Ð¸Ð½Ð° Ð¾Ð³Ñ€Ð¾Ð¼Ð½Ð¸ „Ð¿Ñ€Ð°ÑÐµÑ‚Ð°“ ;) ÐšÐ°ÐºÑ‚Ð¾ Ð¸ Ð´Ð°, Ð°ÐºÐ¾ Ð¼Ð¸ Ð¾ÑÑ‚Ð°Ð½Ðµ Ð¼Ð°Ð»ÐºÐ¾ Ð²Ñ€ÐµÐ¼Ðµ Ð´Ð½ÐµÑ Ñ‰Ðµ ÑÐµ Ð²Ð·ÐµÐ¼Ð° Ð´Ð° Ð¿Ñ€Ð¾Ð±Ð²Ð°Ð¼ ÐºÐ°ÐºÐ²Ð¸ Ñ€ÐµÐ·ÑƒÐ»Ñ‚Ð°Ñ‚Ð¸ Ñ‰Ðµ ÑÐµ Ð¿Ð¾Ð»ÑƒÑ‡Ð°Ñ‚. Ð˜Ð½Ñ‚ÐµÑ€ÐµÑÐ½Ð¾ Ðµ Ð¸ ÐºÐ°Ðº Ñ‰Ðµ ÑÐµ ÑÐ¿Ñ€ÑÐ²Ð°Ñ‚ ÑÑŠÑ „ÑÑ‡ÑƒÐ¿ÐµÐ½“ HTML, Ð¸ ÐºÐ¾Ð»ÐºÐ¾ ÑÑ‚Ð°Ð±Ð¸Ð»Ð½Ð¾ Ñ‰Ðµ Ñ€Ð°Ð±Ð¾Ñ‚ÑÑ‚. Ð¢Ð¾Ñ‡Ð½Ð¾ Ð·Ð° Ð³Ð¾Ð»ÐµÐ¼Ð¸ Ð¿Ð¾ Ð¾Ð±ÐµÐ¼ Ñ„Ð°Ð¹Ð»Ð¾Ð²Ðµ, ÐºÑŠÐ´ÐµÑ‚Ð¾ Ðµ Ð·Ð° Ð¿Ñ€ÐµÐ´Ð¿Ð¾Ñ‡Ð¸Ñ‚Ð°Ð½Ðµ Ñ€Ð°Ð±Ð¾Ñ‚Ð°Ñ‚Ð° Ð½Ð° „Ð¿Ð°Ñ€Ñ‡Ðµ“ Ð¾Ñ‚ Ñ„Ð°Ð¹Ð»Ð°, Ð·Ð° Ð´Ð° ÑÐµ Ð¿ÐµÑÑ‚Ð¸ Ð¿Ð°Ð¼ÐµÑ‚ (Ð²Ð¼ÐµÑÑ‚Ð¾ Ð´Ð° Ð·Ð°Ñ€ÐµÐ´Ð¸Ð¼ Ñ†ÑÐ»Ð¾Ñ‚Ð¾ „Ð¿Ñ€Ð°ÑÐµ“ Ð½Ð°Ð²ÐµÐ´Ð½ÑŠÐ¶), Ð¼Ð¸ Ðµ Ð¸Ð½Ñ‚ÐµÑ€ÐµÑÐ½Ð¾ ÐºÐ°Ðº Ð¼Ð¾Ð¶Ðµ Ð´Ð° ÑÐµ Ð¸Ð·Ð¿Ð¾Ð»Ð·Ð²Ð°Ñ‚ Ð´Ð²Ð°Ñ‚Ð° Ð¼ÐµÑ‚Ð¾Ð´Ð°; Ð´Ð¾ÐºÐ°Ñ‚Ð¾ Ñ€ÐµÑˆÐµÐ½Ð¸ÐµÑ‚Ð¾ Ñ RegExp Ðµ Ð¿Ð¾Ð²ÐµÑ‡Ðµ Ð¾Ñ‚ Ð¾Ñ‡ÐµÐ²Ð¸Ð´Ð½Ð¾ Ð·Ð° Ð¼ÐµÐ½, Ñ‚Ð¾ Ñ‚Ð¾Ð²Ð° Ñ Dom Ðµ Ð¿Ð¾-… „Ð¿Ð¾-ÐµÐºÐ·Ð¾Ñ‚Ð¸Ñ‡Ð½Ð¾“, Ð·Ð°Ñ‰Ð¾Ñ‚Ð¾ Ñ‚Ñ€ÑÐ±Ð²Ð° Ð´Ð° ÑÐµ Ð²Ð¸Ð´Ð¸ ÐºÐ° ÐºÐ¼Ð¾Ð¶Ðµ Ð´Ð° ÑÐµ Ð·Ð°Ð¾Ð±Ð¸ÐºÐ¾Ð»Ð¸ Ð¿Ñ€Ð¾Ð±Ð»ÐµÐ¼Ð° Ñ Ñ†ÑÐ»Ð¾ÑÑ‚Ñ‚Ð° Ð½Ð° Ð´Ð¾ÐºÑƒÐ¼ÐµÐ½Ñ‚Ð°. ÐœÐ¾Ð¶Ðµ Ð±Ð¸ Ð´Ð° ÑÐµ Ð¸Ð·Ð¿Ð¾Ð»Ð·Ð²Ð°Ñ‚ Ð½ÑÐºÐ°ÐºÐ²Ð¸ Ð¼ÐµÐ¶Ð´Ð¸Ð½Ð½Ð¸ Ð¼Ð¾Ð´ÑƒÐ»Ð¸, ÐºÐ°Ñ‚Ð¾ KSES Ð¸ HtmlPurifier, Ñ‰Ðµ Ð¿Ð¾Ð¼Ð¾Ð³Ð½Ð°Ñ‚ Ð´Ð° ÑÐµ Ð¸Ð·Ð³Ð»Ð°Ð´ÑÑ‚ Ð¿Ð°Ñ€Ñ‡ÐµÑ‚Ð°Ñ‚Ð° Ð¾Ñ‚ HTML-Ð°. ÐÐ±Ðµ Ñ‰Ðµ Ð²Ð¸Ð´Ð¸Ð¼, Ð¼Ð¾Ð¶Ðµ Ð¸ Ð½ÐµÑ‰Ð¾ Ð´Ñ€ÑƒÐ³Ð¾ Ð´Ð° Ð¼Ð¸ Ñ…Ñ€ÑƒÐ¼Ð½Ðµ ;)

2 коментара

Ð—Ð° Ñ†ÐµÐ»Ñ‚Ð° ÑÐ¸ Ð¸Ð¼Ð° python ;-) Ð·Ð° Ð½ÐµÐ³Ð¾ Ð¸Ð¼Ð° ÑƒÐ¶Ð°ÑÐ½Ð¾ Ð¼Ð½Ð¾Ð³Ð¾ HTML Ð¸ XML Ð¿Ð°Ñ€ÑÑŠÑ€Ð¸, Ð¿Ñ€Ð¸ ÐºÐ¾Ð¸Ñ‚Ð¾ Ñ‚Ð¾Ð·Ð¸ Ð²ÑŠÐ¿Ñ€Ð¾Ñ Ð²ÑŠÐ¾Ð±Ñ‰Ðµ Ð½Ðµ ÑÑ‚Ð¾Ð¸. Ð”Ð° Ð½Ðµ Ð³Ð¾Ð²Ð¾Ñ€Ð¸Ð¼ Ð·Ð° ÑƒÐ´Ð¾Ð±ÑÑ‚Ð²Ð¾Ñ‚Ð¾ Ð¿Ñ€Ð¸ Ñ€Ð°Ð±Ð¾Ñ‚Ð° Ð¿Ð¾ÑÐ»Ðµ, ÐºÐ¾ÐµÑ‚Ð¾ Ðµ Ð½ÐµÑÑ€Ð°Ð²Ð½Ð¸Ð¼Ð¾ ÑÐ¿Ñ€ÑÐ¼Ð¾ regexp.

Comment by Ð’ÐµÑÐµÐ»Ð¸Ð½ — октомври 6 @ 11:49
Ð©Ðµ ÑÐµ ÑÑŠÐ³Ð»Ð°ÑÑ Ñ Ñ‚ÐµÐ±, Ð²ÑŠÐ¿Ñ€ÐµÐºÐ¸ Ñ‡Ðµ Ð½Ðµ Ñ€Ð°Ð·Ð±Ð¸Ñ€Ð°Ð¼ Ð½Ð¸Ñ‰Ð¾ Ð¾Ñ‚ Python, Ð½Ð¾ Ð·Ð½Ð°Ð¼ ÐºÐ°ÐºÐ²Ð¸ Ð¿Ð¾Ð´Ð²Ð¸Ð·Ð¸ Ð¿Ñ€Ð°Ð²ÑÑ‚ Ð¿Ð°Ñ€ÑÐµÑ€Ð¸Ñ‚Ðµ Ð½Ð° TopBlogLog ;)

Comment by Kaloyan — октомври 6 @ 12:05

RSS feed for comments on this post.

Sorry, the comment form is closed at this time.