Простая сетевая математика

Самый частый вопрос в технической поддержке - "как быстро я соберу 10.000 реальных емейлов?"

Однозначного ответа не существует, и быть не может. И вот почему:

Результат работы EmEx 3 зависит целиком и полностью от Вас и источника поиска.

EmEx 3 обрабатывает тот документ, ссылку на который вы ему дали. Если там есть необходимая вам информация, то он ее извлечет. Но если ее там нет, то взять ее ему будет неоткуда.

Может статься так, что один единственный документ будет содержать все то, что вам надо, а может быть и так, что эту информацию придется собирать из десятков тысяч страниц.

Все зависит целиком и полностью от Вас - как вы настроите программу, что вы укажете в качестве источника, и есть ли необходимая информация на этом источнике.

Скорость работы EmEx 3 зависит от пропускной способности Вашего канала и канала Вашего провайдера.

Простая математика и не более того!
Допустим, что Вы имеете соединение, скоростью в 512 килобит. Это означает, в теории, что вы можете скачивать документы с максимальной скоростью в 64 килобайта/секунду. Средняя современная HTML страница может занимать до 150 килобайт. Соответственно на передачу этой страницы вы должны затратить около 2-3х секунд.

Если мы запускаем одновременно 10 потоков, то мы все равно не сможем получать более 64 килобайт/секунду.

Это ограничение нашего канала. Остановившись на исключительно идеальных требованиях мы получили среднюю скорость получения одной страницы - 2-3 секунды. Соответственно для обработки 100 страниц потребуется 200-300 секунд. Учтите, что для того, чтобы сервер начал вам отдавать страницу, требуется тоже некоторое время и служебный траффик (~10-20%), но уже исходящий.

От момента запроса страницы до ее получения потребуется, как минимум два раза отослать информацию на запрашиваемый сервер (HTTP запрос) и получить ответ (HTTP заголовки). И только потом уже начнется передача самой страницы. Но сюда еще вмешивается и ряд таких параметров, как загруженность канала до сервера и скорость ответа сервера.

Соответственно мы получим, в лучшем случае 200-300 секунд, а в реальности от 500 и более секунд на 100 страниц при канале в 512 килобит. Мы ввели различные схемы, для того, чтобы увеличить скорость работы EmEx 3 - это и распределенное сканирование, и использование прокси серверов. Тестируйте, используйте, подбирайте для себя наиболее оптимальные решения!