Грабим email адреса с сайтов
Вообщем встала у меня задача найти email адреса на довольно большом количестве веб-сайтов. Число сайтов - примерно 5 тысяч.
Немного погуглив в яндексе я нашёл программы, которые могут мне помочь. Простые в использовании программки, которые начинают бегать по указанному сайту, искать ссылки на другие страницы, переходить по ним и искать все е-майл адреса. Вроде здорово, вроде то, что нужно.
Но не тут то было. Большинство веб-сайтов имеют огромное количество страниц. И этот бот начинает бегать по ним всем. Чаще всего емайлы указываются на единице страниц, но ни как не на каждой странице. Получается, бот бегает просто так. Выходит, что эта программа мне не подходит, ибо 5 тысяч сайтов он будет изучать год, если вообще программа не умрёт от такого объёма информации.
Мною было придумано следующее решение: Написать скрипт, который делает следующее:
1) Берёт список сайтов и начинает их по очереди открывать
2) Ищет е-майлы на открытой странице
3) Ищет страницу контактной информации. Сайты были англо/испано язычные, а есть общая часть слова contact(Contact us / Contactos), а значит найти ссылку на страницу контактов в коде - не проблема
4) Открывалась страница контактов
5) Искался е-майл на этой странице
Скрипт работал у меня часов 8 наверное. Всё в один поток, не стал сильно нагружать, поэтому и время такое долгое. + скрипт показывал в окне браузера статистику, сколько всего сайтов, сколько уже прошёл, сколько успешных сайтов, сколько фэйловых. И протоколировал все успешные и фейловые сайты на разных этапах.
Вообщем, вышел довольно полезный для данной ситуации скрипт. Если вдруг у вас встанет подобная задача - пишите мне, договоримся =)
Летом бывает очень жарко, а работать нужно в удобных условиях. Предлагаем вам промышленные системы кондиционирования, которые создадут необходимые условия на вашем предприятии