基于curl数据收罗之正则管理函数get

基于正则表达式替换的模板引擎很容易遇上正则表达式最大回溯/递归的限制。
惰性匹配并不可怕,正常情况下模板并不会不够用,往往不会超出限制,discuz的模板引擎就大量使用了。但是因此而不去注意、不去学习,则容易书写错误并遇上问题。
当preg_*返回的是null的时候则要注意了,判断函数是is_null.
出错并不可怕,但是最好把错误都完整的输出,这样调试就很容易了。
除了输出出错原因,还要输出匹配的文本和使用的正则,这样就很容易调试了。
PHP代码
复制代码 代码如下:
if (is_null($tmp)){
$error_code = preg_last_error();
switch($error_code){
case PREG_NO_ERROR :
echo ‘PREG_NO_ERROR’;
break;
case PREG_INTERNAL_ERROR:
echo ‘PREG_INTERNAL_ERROR’;
break;
case PREG_BACKTRACK_LIMIT_ERROR:
echo ‘PREG_BACKTRACK_LIMIT_ERROR’;
break;
case PREG_RECURSION_LIMIT_ERROR:
echo ‘PREG_RECURSION_LIMIT_ERROR’;
break;
case PREG_BAD_UTF8_ERROR:
echo ‘PREG_BAD_UTF8_ERROR’;
break;
case PREG_BAD_UTF8_OFFSET_ERROR:
echo ‘PREG_BAD_UTF8_OFFSET_ERROR’;
break;
default:
echo ‘UNKNOW ERROR’;
}
exit;
}

基于curl数据采集之单页面并行采集函数get_htmls的使用

根据PCRE library的官方说明:256 KB
的堆栈空间对应的pcre.recursion_limit大小应该不超过524。
Here is a table of safe values of pcre.recursion_limit for a variety of
executable stack sizes:
下面就是一张Stacksize和pcre.recursion_limit对应的建议安全值,超过这个数值就极有可能发生堆栈溢出,apache
crash:

参考资料 1、2010, Laruence
《深悉正则(pcre)最大回溯/递归限制》
2、2011,
PHP中文手册preg_last_error

就可以得到所需的信息,无论单页面采集还是多页面采集,最终PHP还是只能处理一个页面,由于使用get_matches了,可以对返回的值进行判断真假,得到正确的数据,由于使用正则的时候遇到了超过正则回溯的问题,增加get_preg_err_msg来提示正则信息。

Apache/2.2.9 (Win32) +
PHP/5.2.17,在使用正则表达式
preg_match_all (如
preg_match_all(“/ni(.*?)wo/”, $html,
$matches);)进行分析匹配比较长的字符串 $html
时(大于10万字节,一般用于分析采集回来的网页源码),Apache服务器会崩溃自动重启。

由于采集数据的时候,经常是采集列表页,根据列表页得到的内容页链接再采集内容页,或者更多的层次,那么循环嵌套会很多,对于代码的控制会感觉力不从心。那我们是否可以把采集列表页的代码和采集内容页的代码,或者更多的层次的采集代码分离开,甚至循环都简化呢?

 那么如何增加win平台下 ThreadStackSize 的大小呢? 在apache的配置文件
httpd.conf 里启用 “Include
conf/extra/httpd-mpm.conf”(删除前面的注释#),然后在 httpd-mpm.conf
文件里的 mpm_winnt_module 配置模块里设置 “ThreadStackSize
8400000”即可(大约8M)。

已经可以得到了我们需要的html文件,现在需要处理得到的文件获取到我们需要的采集的数据。

Stacksize   pcre.recursion_limit
 64 MB      134217
 32 MB      67108
 16 MB      33554
  8 MB      16777
  4 MB      8388
  2 MB      4194
  1 MB      2097
512 KB      1048
256 KB      524
如果你没有调整堆栈大小,就必须在使用正则的PHP页面最开头加入:

基于curl数据采集之单页面采集函数get_html的使用

查看具体的错误可以使用下面的代码:

发表评论

电子邮件地址不会被公开。 必填项已用*标注