PHP多线程批量采集下载美女图片的实现代码

开发 后端 开发工具
使用curl的多线程,另外curl可以设置请求时间,遇到很慢的url资源,可以果断的放弃,这样没有阻塞,另外有多线程请求,效率应该比较高

使用curl的多线程,另外curl可以设置请求时间,遇到很慢的url资源,可以果断的放弃,这样没有阻塞,另外有多线程请求,效率应该比较高

[[131997]]

下面是代码实现:

  1. /**  
  2.      * curl 多线程  
  3.      * @author http://www.lai18.com 
  4.      * @param array $array 并行网址  
  5.      * @param int $timeout 超时时间 
  6.      * @return mix  
  7.      */ 
  8.  public function Curl_http($array,$timeout='15'){ 
  9.       $res = array(); 
  10.  
  11.       $mh = curl_multi_init();//创建多个curl语柄 
  12.  
  13.       foreach($array as $k=>$url){ 
  14.           $conn[$k]=curl_init($url);//初始化 
  15.  
  16.           curl_setopt($conn[$k], CURLOPT_TIMEOUT, $timeout);//设置超时时间 
  17.           curl_setopt($conn[$k], CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; MSIE 5.01; Windows NT 5.0)'); 
  18.           curl_setopt($conn[$k], CURLOPT_MAXREDIRS, 7);//HTTp定向级别 ,7最高 
  19.           curl_setopt($conn[$k], CURLOPT_HEADER, false);//这里不要header,加块效率 
  20.           curl_setopt($conn[$k], CURLOPT_FOLLOWLOCATION, 1); // 302 redirect 
  21.           curl_setopt($conn[$k], CURLOPT_RETURNTRANSFER,1);//要求结果为字符串且输出到屏幕上           
  22.     curl_setopt($conn[$k], CURLOPT_HTTPGET, true); 
  23.  
  24.           curl_multi_add_handle ($mh,$conn[$k]); 
  25.       } 
  26.        //防止死循环耗死cpu 这段是根据网上的写法 
  27.           do { 
  28.               $mrc = curl_multi_exec($mh,$active);//当无数据,active=true 
  29.           } while ($mrc == CURLM_CALL_MULTI_PERFORM);//当正在接受数据时 
  30.           while ($active and $mrc == CURLM_OK) {//当无数据时或请求暂停时,active=true 
  31.               if (curl_multi_select($mh) != -1) { 
  32.                   do { 
  33.                       $mrc = curl_multi_exec($mh$active); 
  34.                   } while ($mrc == CURLM_CALL_MULTI_PERFORM); 
  35.               } 
  36.           } 
  37.  
  38.       foreach ($array as $k => $url) { 
  39.             if(!curl_errno($conn[$k])){ 
  40.              $data[$k]=curl_multi_getcontent($conn[$k]);//数据转换为array 
  41.              $header[$k]=curl_getinfo($conn[$k]);//返回http头信息 
  42.              curl_close($conn[$k]);//关闭语柄 
  43.              curl_multi_remove_handle($mh  , $conn[$k]);   //释放资源  
  44.             }else
  45.              unset($k,$url); 
  46.             } 
  47.           } 
  48.  
  49.           curl_multi_close($mh); 
  50.  
  51.           return $data
  52.  
  53.    } 
  54.  
  55. //参数接收 
  56. $callback = $_GET['callback']; 
  57. $hrefs = $_GET['hrefs']; 
  58. $urlarray = explode(',',trim($hrefs,',')); 
  59. $date = date('Ymd',time()); 
  60. //实例化 
  61. $img = new HttpImg(); 
  62. $stime = $img->getMicrotime();//开始时间 
  63.  
  64. $data = $img->Curl_http($urlarray,'20');//列表数据 
  65. mkdir('./img/'.$date,0777); 
  66. foreach ((array)$data as $k=>$v){ 
  67.  preg_match_all("/(href|src)=(["|']?)([^ "'>]+.(jpg|png|PNG|JPG|gif))\2/i", $v$matches[$k]); 
  68.  
  69.  if(count($matches[$k][3])>0){ 
  70.   $dataimg = $img->Curl_http($matches[$k][3],'20');//全部图片数据二进制 
  71.   $j = 0; 
  72.   foreach ((array)$dataimg as $kk=>$vv){ 
  73.    if($vv !=''){ 
  74.     $rand = rand(1000,9999); 
  75.     $basename = time()."_".$rand.".".jpg;//保存为jpg格式的文件 
  76.     $fname = './img/'.$date."/"."$basename"
  77.     file_put_contents($fname$vv);    
  78.     $j++; 
  79.     echo "创建第".$j."张图片"."$fname"."<br/>"
  80.    }else
  81.     unset($kk,$vv); 
  82.    } 
  83.   } 
  84.  }else
  85.   unset($matches); 
  86.  } 
  87. $etime = $img->getMicrotime();//结束时间 
  88. echo "用时".($etime-$stime)."秒"
  89. exit

 

责任编辑:王雪燕 来源: hello_katty的专栏
相关推荐

2016-09-06 21:09:35

Phpgd库图片水印

2010-08-04 11:37:44

PHP NFS

2009-11-24 14:45:08

PHP批量上传图片

2010-08-31 13:56:38

PHP5多线程

2015-07-01 09:35:16

Java批量下载网络图片

2009-09-14 19:39:14

批量线程同步

2015-02-03 15:06:23

android多线程下载

2009-08-12 17:19:51

ASP.NET图片加水

2010-07-17 00:53:50

CMD Telnet

2015-06-04 12:53:18

2014-12-31 15:42:21

Android多线程软件下载

2012-12-25 11:39:20

Pythoncrawler

2011-05-31 13:29:40

Android 多线程

2011-06-20 12:28:30

2022-03-17 08:04:56

图片canvas音符

2010-03-17 19:24:38

Java多线程循环

2009-12-02 17:22:22

PHP抓取图片

2010-02-04 10:19:39

C++多线程

2009-11-18 15:39:43

PHP函数

2012-01-12 10:09:30

Java
点赞
收藏

51CTO技术栈公众号