PHP VDB\Spider Spider::getStatsHandler 예제들

프로그래밍 언어: PHP

네임스페이스/패키지 이름: VDB\Spider

클래스/타입: Spider

메소드/함수: getStatsHandler

hotexamples.com에서의 예제들: 3

PHP VDB\Spider Spider::getStatsHandler - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 PHP의 VDB\Spider\Spider::getStatsHandler에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

crawl(5)

getDownloader(5)

getDiscovererSet(4)

getDispatcher(4)

addDiscoverer(3)

getStatsHandler(3)

getPersistenceHandler(2)

getQueueManager(2)

setMaxDepth(2)

setMaxQueueSize(2)

setQueueManager(2)

setTraversalAlgorithm(2)

addPreFetchFilter(1)

getRequestHandler(1)

setPersistenceHandler(1)

setRequestHandler(1)

예제 #1

파일 보기

파일: SpiderTest.php 프로젝트: aigouzz/php-spider

 /**
  * @covers VDB\Spider\Spider::crawl
  */
 public function testCrawlFailedRequest()
 {
     $this->requestHandler->expects($this->any())->method('request')->will($this->throwException(new Exception('Failed mock request!')));
     $this->spider->crawl();
     $stats = $this->spider->getStatsHandler();
     $this->assertCount(0, $stats->getFiltered(), 'Filtered count');
     $this->assertCount(0, $stats->getQueued(), 'Queued count');
     $this->assertCount(1, $stats->getFailed(), 'Failed count');
 }

예제 #2

파일 보기

파일: CssSelectorDiscoverer.php 프로젝트: aigouzz/php-spider

 /**
  * @param Spider $spider
  * @param Resource $document
  * @return UriInterface[]
  */
 public function discover(Spider $spider, Resource $document)
 {
     $crawler = $document->getCrawler()->filter($this->cssSelector);
     $uris = array();
     foreach ($crawler as $node) {
         try {
             $uris[] = new Uri($node->getAttribute('href'), $document->getUri()->toString());
         } catch (UriSyntaxException $e) {
             $spider->getStatsHandler()->addToFailed($node->getAttribute('href'), 'Invalid URI: ' . $e->getMessage());
         }
     }
     return $uris;
 }

예제 #3

파일 보기

파일: example_simple.php 프로젝트: aigouzz/php-spider

<?php

use VDB\Spider\Discoverer\XPathExpressionDiscoverer;
use VDB\Spider\Spider;
require_once __DIR__ . '/../vendor/autoload.php';
// Create Spider
$spider = new Spider('http://www.dmoz.org');
// Add a URI discoverer. Without it, the spider does nothing. In this case, we want <a> tags from a certain <div>
$spider->addDiscoverer(new XPathExpressionDiscoverer("//div[@id='catalogs']//a"));
// Set some sane options for this example. In this case, we only get the first 10 items from the start page.
$spider->setMaxDepth(1);
$spider->setMaxQueueSize(10);
// Execute crawl
$spider->crawl();
// Report
$stats = $spider->getStatsHandler();
echo "\nSPIDER ID: " . $stats->getSpiderId();
echo "\n  ENQUEUED:  " . count($stats->getQueued());
echo "\n  SKIPPED:   " . count($stats->getFiltered());
echo "\n  FAILED:    " . count($stats->getFailed());
// Finally we could do some processing on the downloaded resources
// In this example, we will echo the title of all resources
echo "\n\nDOWNLOADED RESOURCES: ";
foreach ($spider->getPersistenceHandler() as $resource) {
    echo "\n - " . $resource->getCrawler()->filterXpath('//title')->text();
}