|
 |
Полноценный граббер для dle сайтов (бесплатно)
|
 |
|
Описание grabber"a:
Граббер является скриптом для dle.
Особенности скрипта:
[*] Скрипт является самостоятельной системой. Он легко устанавливается и конфигурируется.
[*] Универсальность. Граббер позволяет получать контент с большинства DLE-сайтов (не используя RSS), а полученный контент можно использовать на любом сайте, независимо от того, базируется он на популярной CMS или на самописном скрипте. Данную систему можно научить парсить новости с любого сайта, обладая начальными навыками PHP и HTML.
[*] Гибкость - два режима работы. >>Классический режим: В этом режиме дистрибутив граббера копируется непосредственно на Ваш сайт. Все что нужно - указать тип используемой CMS. Полученные новости, после их подтверждения, автоматически размещаются у Вас на сайте.
>>Пакетный режим: Суть режима заключается в разделении процесса получения новостей от их добавления. Грабить новости вы можете на своем локальном сервере (для пользователей Windows отлично подойдет набор denwer), скрипт в этом режиме будет формировать специальные пакеты (.php файлы), которые, впоследствии, копируются на Ваш сайт, где другая копия граббера их обрабатывает. Преимущества данного режима:
[*]Возможность грабить большое количество статей одновременно, если этого не позволяет делать Ваш хостинг; [*]Если вы грабите долгое время с одного сайта, рано или поздно, Ваш IP на этом сайте может быть просто забанен, а если грабить с локального сервера - тут Вам на помощь прокси и/или динамический IP.
[*] Функциональность. ] [*]Поддержка авторизаций на сайте-источнике для получения элементов, недоступных гостям; [*]Поддержка мультиграббинга (одновременное использование одной копии граббера для работы с множеством источников) [*]Возможность получения новостей определенной категории или всех новостей, публекуемых на главной странице; [*]Возможность ограничения количества одновременных запросов с указанием интервала для паузы;* [*]Возможность добавления "случайных" дат при размещении новостей на Вашем сайте (перемешивание новостей); [*]Возможность проверки новости на уникальность перед добавлением; [*]Возможность поэтапного добавления новостей на Ваш сайт; [*]Возможность автоматического определения категории новости по её содержимому (с помощью шаблонов); [*]Возможность автоматического добавления "подписей" в новости, где можно указать сайт, например, сайт-источник или ключевые слова; [*]Возможность цензурирования новостей (замены или удаления текста по точным совпадениям или шаблонам); [*]Возможность "чистки" HTML-кода новости (начиная от удаления html-комментариев, заканчивая удалением ненужных конструкций); [*]Возможность синонимизации текста (в дистрибутив входят две открытые базы синонимов); [*]Возможность синонимизации текста с помощью Google Translate; [*]Возможность добавления (в том числе и загрузки на сервер в двух режимах) потоковых видео (IMDb) с замещением flash-проигрывателя; [*]Возможность загрузки картинок на сервер (с возможностью сортировки в разные папки по дате, титулу...); [*]Возможность наложения водяных знаков на загружаемые картинки; [*]Возможность расшифровки DLE ссылок (./engine/go.php); [*]Возможность использования прокси-сервера для соединения с сайтом-источником;
[*]Возможность адаптирования скрипта под сайты, которые имеют нестандартную HTML-структуру; [*]Возможность сохранения списка последних спарсенных сайтов; [*]Возможность уменьшения картинок на уровне самих файлов или HTML-кода; [*]Возможность добавления новостей от случайного автора из списка; появится в новой версии [*]Возможность добавления meta-данных (ключевых слов и описание) в следующих режимах: появится в новой версии а) парсинг непосредственно с сайта-источника; б) с помощью автоматической системы получения ключевых слов через анализ контента; в) по собственным шаблонам; [*]Наличие универсального модуля загрузки файлов: он может использоваться для загрузки любого типа файлов (будь-то .swf flash-ролики и/или .rar архивы) [*]Наличие встроенного редактора новостей; [*]Наличие встроенного онлайн синонимизатора (для проверки баз); [*]Наличие универсального конвертора формата текстовых баз синонимов; А также многое другое... ] * - На некоторых DLE (да и не только) сайтах стоит анти-спам защита (ограничение количества обращений с одного IP в период времени). Данный скрипт имеет опцию ограничения количества одновременных запросов с указанием интервала для паузы. Что, конечно, увеличивает время граббинга, но все же оставляет его автоматизированным даже на сайтах с анти-спам защитой. Данная опция также может быть полезна, если на Вашем хостинге отключена стандартная функция снятия ограничения времени выполнения скрипта. (на большинстве серверов она по понятным причинам как раз отключена). В этом случае, обычно, вылетает ошибка 403 (Forbidden).
[*] Оптимизация. Работа с граббером максимально нацелена на оптимизацию. Все конфиги расположены в отдельной директории и максимально документированы. С моей стороны гарантируется помощь в настройки системы.
[*] Надеждый механизм работы. Весь полученный контент хранится в директориях скрипта и может быть использован при повторном запросе на получение тех же статей. Это очень полезно, если объем получаемого контента большой, - ведь в этом случае возобновление работы после любого сбоя не представляет проблем, достаточно заного указать начальную и конечную страницы, а скрипт сам определит какие из статей уже получены, а какие предстоит сграбить.
[*] Расширяемость. С граббером поставляется и документация к нему с описанием функций и структуры. Ключевые его элементы подробно закомментированы и расположены в отдельных библиотеках, что позволит оптимизировать или расширить функционал скрипта даже начинающему программисту. В граббер, также, встроен простой, но удобный механизм подключения собственных модулей по обработке контента.
[*] Безопасность. Граббер имеет встроенный механизм авторизации для ограничения доступа к скрипту. Данную функцию можно включить и выключить в любой момент.
Теперь Вы можете скачать его БЕСПЛАТНО!
Внимание! У Вас нет прав для просмотра скрытого текста.
|
|
 |
просмотров 4420
комментариев (2)
|
 |
 |
Информация |
 |
|
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
|
|
 |
|
 |
|
|