My PHP version is 5.2.1 For windows.
If browser doesn't support compressed ,
ob_start('ob_gzhandler') returns the original string,
but $str = ob_gzhandler ( $buffer, 5 ) returns false;
<?php /* 1.php */
ob_start('ob_gzhandler') ;
echo 'This is a string.';
?>
<?php
/* 2.php */
header("Content-Encoding: gzip");
$buffer = 'This is a string.';
$str = ob_gzhandler ( $buffer, 5 ) ;
if($str===false){
echo 'ob_gzhandler() returns false.';
}else{
echo $str;
}
?>
<?php
/* 3.php */
echo file_get_contents('http://www.php.net/1.php');
echo file_get_contents('http://www.php.net/2.php');
/*
result:
This is a string.ob_gzhandler() returns false.
*/
?> 截取字符串时,截断HTML的问题
在截取字符串时,如果该串中含 HTML 代码,往往会把 HTML 截断,比如:
$string = "aaaaaaaaaa<br />bbbbbbbbbb<br />cccccccccc<br />dddddddddd<br />eeeeeeeeee";
截取 29 个字符:
$len = 29;
echo substr($string,0,$len);
将会得到: aaaaaaaaaa<br />bbbbbbbbbb<br
用以下方法,可以避免从 HTML 代码处截断,而且长度的计算,不算上代码的长度,更比较切合实际:
<?
$len = 29;
$string = "aaaaaaaaaa<br />bbbbbbbbbb<br />cccccccccc<br />dddddddddd<br />eeeeeeeeee";
echo substr($string,0,$len);
// Result: aaaaaaaaaa<br />bbbbbbbbbb<br
echo "\n";
echo cut_without_tags($string,$len);
// Result: aaaaaaaaaa<br />bbbbbbbbbb<br />ccccccccc
/** Function Start,faisun@sina.com **/
function cut_without_tags($string,$len){
/*
Split $string to array:
"aaaaaaaaaa","<br />","bbbbbbbbbb","<br />","cccccccccc","<br />","dddddddddd","<br />","eeeeeeeeee"
*/
$spchar = chr(1).chr(2).chr(4); // A special String
$s = str_replace("<","$spchar<",$string);
$s = str_replace(">",">$spchar",$s);
$str_array = split("$spchar",$s);
$new_str = "";
$new_str_len = 0;
$temp_lem = 0;
foreach($str_array as $s){
$tag = strrchr($s,'<')?true:false; // Is a HTML tag?
if(!$tag) $temp_lem += strlen($s); // valid length,if NOT a HTML tag
if( $temp_lem < $len ){
$new_str .= $s;
$new_str_len = $temp_lem;
}else if($new_str_len==$len || $tag){
$new_str .= $s;
$new_str_len = $temp_lem;
break;
}else{
$new_str .= substr($s,0,$len-$new_str_len); //Cut, if too long and NOT a HTML tag
break;
}
}
return $new_str;
}
?>
中文的截取,在字符串的长度计算和截取方面有所不同,需要换成相应的函数。
用这种方法截取后,可能会出现不闭合的标签,还要把这些标签进行后期闭合处理。
在apache中解压预压缩的静态文件
对于静态的 html 文件,在 apache 可加载 mod_deflate.so 模块,把内容压缩后输出,可节约大量的传输带宽。
mod_deflate.so 的用法可在网上找,大部分的文章都是正确的。
像本站(纯粹空间 http://www.softpure.com/),静态的 html 是由 PHP 生成并保存于 /html/ 目录下。生成及用户访问的流程如下:
(流程1)
生成: PHP处理生成代码 > 保存为HTML;
访问: Apache 读取HTML文件 > 压缩 > 输出文件头+文件内容;
客户端: 解压 > 处理
如此一来,用户的每次访问, Apache 都要压缩一次,浪费了大量的资源。
我就想到预压缩 HTML 文件内容,提高 apache 效率,流程改为:
(流程2)
生成: PHP处理生成代码 > 压缩 > 保存为预压缩HTML;
访问: Apache 读取HTML文件 > 输出文件头+文件内容;
客户端: 解压 > 处理
这样用户访问时不用压缩一次,直接发送已压缩的内容,不但效率高,占用资源少,而且减少保存 HTML 的占用空间。
然而,有小部分浏览器/Spider是不支持解压的。对于这类的浏览器,流程1中 Apache 可判断并不压缩内容;但在流程2中,内容已预压缩,只能解压后再发送。
在网上查找资料,看这篇文件,似乎是官方的:
http://mail-archives.apache.org/mod_mbox/httpd-bugs/200409.mbox/%3C20040909145350.20659.qmail@nagoya.betaversion.org%3E
文章说 mod_deflate 是有解压输出的功能的,用
LoadModule deflate_module modules/mod_deflate.so
SetOutputFilter INFLATE
即可解压。并说设置环境变量 force-gunzip=1 即可不管文件类型和Header内容,强制解压, 设置 no-gunzip=1 即可不解压。
在 Apache 2.0.59 和 Apache 2.2.4 下,我试了半天,无论怎么配置,一概不解压 
一气之下,下载 Apache 源文件,细细研究。
结果发现:
1) 在 Apache 2.0.59 中,mod_deflate 只有输出压缩和输入解压功能,并没有输出解压功能。
2) 在 Apache 2.2.4 中,mod_deflate 增加了输出解压功能,但它并不读取环境变量 force-gunzip 和 no-gunzip 。
解压的条件是:输入到 Apache 的 Header 中,包含文件头 Content-Encoding: gzip 。
解压后该模块会删除 Content-Encoding 的文件头。
我用 php 先 header('Content-Encoding: gzip '); 发送文件头,然后读取预压缩的HTML文件并输出,果然可以解压。
然而,在 httpd.conf 中设置 Header Append Content-Encoding gzip ,却是不行的。
静态文件是不可能向 apache 发送文件头的,所以用 mod_deflate 的解压方式在这里行不通。
解决的办法,只能自己修改 mod_deflate 模块的源码,然后重新编译。或者,等 Apache 出新版。 Apache 的最新几个版本都陆续对 mod_deflate 有修改。
不过目前我在 Windows 下编译 Apache 还没有测试成功,只能继续查找资料了,有经验的朋友可以和我交流阿。
Email: faisun@sina.com
现在本站的解决方法是:
如果浏览器支持 gzip ,则发送 Content-Encoding: gzip 文件头,并把预压缩 HTML 内容输出。
若不支持, 则用 Rewrite 的方式,转为 php 解压该HTML 文件。
1) PHP压缩保存: php 压缩时,应采用 gzencode() 函数压缩,客户端才能解码。
2) Apache 的 httpd.conf 设置:
#该虚拟主机 DocumentRoot D:/wwwroot/softpure.com
#对 D:/wwwroot/softpure.com/html 这个目录的规则(Rewrite 一般是相对目录编辑规则)
<Directory D:/wwwroot/softpure.com/html>
RewriteEngine On
# 非 IE 浏览器,并且
RewriteCond %{HTTP_USER_AGENT} !\bMSIE
# 空的 HTTP_USER_AGENT,或
RewriteCond %{HTTP_USER_AGENT} ="" [OR]
#不支持gzip 的浏览器
RewriteCond %{HTTP_USER_AGENT} Mozilla/4\.0[678]
#把 .html/.htm 文件,重写为 /htm/... ,使用伪静态,用 htm.php 读取>解压内容后输出。
RewriteRule (.+\.html?) /htm/$1 [L,NS]
#如果没有重写,则下条指令生效:发送 Content-Encoding: gzip 的 Header
Header append Content-Encoding "gzip"
</Directory>
我发表在php.net 官网手册上的 Note: ob_gzhandler() 函数
faisun at sina dot com 就是我啦 :)
ob_gzhandler
24-Apr-2007 12:53
纯粹手写板 V1.3 算法简介
相关链接: 纯粹手写板测试专帖
本以为纯粹手写板的代码压缩到了 V1.22 版,几乎没什么压缩的空间了。今天却忽然又来了灵感,采用 10*52 的记数方法,进一步提高了1/3以上的压缩率。
纯粹手写板的代码压缩大概经历了这几个历程:
V 1.0 把原代码转化为按各属性值排列;可使存储的代码减为原代码的 1/2 以上。
V 1.1 把线条的直线中间点去掉;可使存储的代码再减少 1/2 以上。
V 1.2 采用 62*62 的记数方法,可使存储的代码再减少 1/3 左右。
V 1.3 采用 10*52 的记数方法,可使存储的代码再减少 1/2 - 1/3。
什么是 V 1.2 版的 62*62 的记数方法呢?原码中,线条的坐标代码是这种格式的:x1,y1,x2,y2,x3,y3.....,xn,yn。因为手写板编辑框为 400px*200px ,所以坐标数字都是 0 到 400 之间的。62*62 记数方法为:把 x1...xn,y1...yn 这些数字用 0-9a-zA-Z 共 62 个符号表示,也就是 62 进制了。不足2位的,在前面补0。由于所有的数字都用2个符号表示了,所以数字之间的逗号可以去掉。这样的表示方式,可以比原来的代码少 1/2 左右。
而 10*52 的记数方式,比 62*62 的表示代码还要少。这个方式能表示的最大数字,不能超过 520,用在手写板中还是可以的(而用 26*36 的记数方式的话,可以表示不超过936 的数)。原理是用0-9表示高位,用a-zA-Z共52个符号表示低位。你现在也许会说,一样是用两个符号表示一个数字啊,怎么会比 62*62的方法更少呢?它们的区别在于,一个数和上一个数的高位相同的时候,此数的高位不写。也就是说,打个比方,8A8B8z 只表示为 8ABz 。因为手写板中的代码,每个x或y之间的跳跃不会很频繁地很大,所以压缩的比较多。根据比较的结果,这种方式比 62*62 的方式可以少 1/2-1/3 的存储代码。
因为算法的更新,V1.3 不可能兼容 V1.2 原来的代码了,直接从 V1.2 更新到 V1.3 的话,以前存储的数据将不能解释,所以更新手写板后,是需要更新数据库中的数据的。
Discuz! 更新到 5.0 后,由于编辑器和以前的版本大不一样,安装手写板插件会比以前复杂一些,我会尽快把安装说明整理出来。
关于 iconv() 函数
用 iconv('GB2312','UTF-8',$string) 转换编码时,如果 $string 中含有不能转换的字符(如繁体字),则会转换失败,返回 False。
iconv( 'GB2312', 'UTF-8//IGNORE' , $string) 可以忽略失败。
UTF-8 和 GB2312 截取固定长度字符串的处理
我曾发过一篇 《高效的固定长度字符串的截取函数》 ,可是这个方法只适用于 GB2312 的编码。因为在 GB2312 下,汉字占两个字符,在页面中刚好也是占两倍的地方显示。
可是在 UTF-8 编码中,汉字却是占2-3个字符。这个不确定性给截取造成了挺大的麻烦。目前我用的方法只能是循环:
<?
function toFixLen($str, $len) { // 固定长度字符串的截取,UTF-8
$str=trim($str);
$pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
preg_match_all($pa, $str, $t_string);
$lt = count($t_string[0]);
$str = '';
$l = 0 ;
foreach($t_string[0] as $k=>$s){
$l += (strlen($s)==1?1:2);
if($l>=$len-3 && $k!=$lt){
$str .= '...';
break;
}else{
$str .= $s;
}
}
return $str;
}
?>
MySQL 读写时差导致的重复处理问题
现需对表 table 中 status=0 的列进行处理。 run.php 中程序如下:
<?
include("global.php");
$query=$db->query("select * from table where status=0 limit 20");
while($result=$db->fetch_array($query)){
$db->query("update table set status=1 where id=$result[id]");
// 处理 $result,这个过程需要费时约 1 秒
// 所以,下面采用 sleep() 代替
sleep(1);
}
?>
run.php 由 ajax 不断刷新,直到把全部的数据处理完为止。
为了加快速度,我开了两个 ajax 的窗口。运行前有 1000 条符合条件的数据需要处理。理论上,两个窗口一共刷新 50 次,就可以全部处理完。
然而,两个窗口一共刷新的次数远不止 50 次,数据处理的次数也远不止 1000 条。
也就是说,很多数据被重复处理了。
为什么会这样呢。处理数据前,我不是把 status 先改为 1 了吗?
于是我把 table 复制为 table1 ,并把 status=0 的数据删到只剩 10 条。
编写以下程序:
<?
include("global.php");
$query=$db->query("select * from table1 where status=0");
while($result=$db->fetch_array($query)){
$db->query("update table set status=1");
print_r($result);
}
?>
程序中,取出第一条数据的时候,就已经把 所有的 status 改为 1 了。 print_r() 的结果,还是 10 条数据。也是就说,数据在 mysql_query() 的时候,就已经定下来了。即使后来数据有所更改,但并不影响本次查询的结果。
所以在第一个程序中,由于处理过程较久,开两个或以上处理的窗口时,MySQL 返回的结果很多是一样的,造成了数据的重复处理。
解决的方法是,采用两次循环,把数据库更新和费时较久的后期数据处理分开,减少数据库的读写时差:
<?
include("global.php");
$query=$db->query("select * from table where status=0 limit 20");
$where = '0';
$result_arr = array();
while($result=$db->fetch_array($query)){
$result_arr[] = $result;
$where .= " or id=$result[id]";
}
if($where) $db->query("update table set status=1 where $where");
foreach($result_arr as $result){
// 处理 $result,这个过程需要费时约 1 秒
// 所以,下面采用 sleep() 代替
sleep(1);
}
?>
AJAX+PHP: 小心 session 锁定
然而却出现了很奇怪的问题:
管理后台中点击其他的页面,要很久才加载完;停止 ajax 的刷新,其他页面的加载速度恢复正常。似乎服务器的资源被 ajax 的刷新占光了。然而, run.php 的运行耗费的资源是没那么严重的;而且,网站的前台页面,加载却一切正常。
分析了良久,才发现这样的问题:原来 run.php 和其他的管理页面一样,都用了 session 来维持登录。 run.php 的返回需要十几秒,虽然它占用的资源不多,但是 session 却被它“锁定”了(可能是锁定了相应 session 记录文件),其他的页面需要等待它返回,才能继续运作。
解决的方法便是, run.php 不要用 session。因为 run.php 和其他的页面一样都是 include 同一个文件的,所以我把整个后台改为采用 cookie 模式。
站点改用纯静态生成技术
http://www.softpure.com/
原本是伪静态的,路径格式如下:
http://www.softpure.com/htm/show_details/57/1134845699.htm
现在改成了纯静态的,路径格式改为如:
http://www.softpure.com/html/show_details/57.htm
浏览速度快了很多,我这里浏览快了差不多一倍.
blog 和 论坛 那里是动态的,可以对比一下速度.
目前原本的路径格式仍然可以正常解释.
其实改后的页面中,还有一些是伪静态的,像酷站那里的重定向页面,不想生成那么多的HTML文件了.单目前来说就已经生成 1.3 万个文件,共近 200M 了.
以前有些人问我是用哪个模板做的, 那时候的页面全是伪静态的, 还用模板吗?
现在生成纯静态也没有用哪个模板,全是自己开发的,我会逐渐完善它.
有兴趣的朋友可以一起探讨.(纯技术上的交流.叫我给源码的,不算.)
实现 win2003 下 mysql 数据库每天自动备份
终于让服务器每天早上备份一次 MySQL 数据库并自动打包,同时删除 5 天前的备份文件. 分享如下.
1. 环境: windows server 2003 + Apache 2.0 + PHP5 + MySQL 4.0.26 .
PHP不需要 exec() 或 system() 等特殊权限;备份过程中数据库不需要重启.
2. 假设 PHP 安装目录为 D:/php ,MySQL 安装目录为 D:/mysql.
3. 在 D:/php 下建立目录 WinRAR, 把你 winrar 安装目录下的 WinRAR.exe 和 RARReg.KEY 复制到 D:/php/WinRAR .
4. D:/php 下建立文件 mysql_backup.php:
<?
/*/////////////////////////
#FileName: mysql_backup.php
#Author: faisun
#Website: http://www.softpure.com
////////////////////////*/
//保存目录,路径要用反斜杠.您需要手动建立它.
$store_folder = 'D:\databse_backup';
//用户名和密码
//该帐号须有操作[所有]的数据库及FILE的权限
//否则有些数据库不能备份.
$db_username = "root";
$db_password = "";
$time=time();
$nowdir = "$store_folder\\".date("Ymd",$time)."";
if(file_exists("$nowdir.rar")) die("File exists.\r\n");
@mkdir($nowdir);
mysql_connect("localhost","$db_username","$db_password");
$query=mysql_list_dbs();
$command = '';
while($result=mysql_fetch_array($query)){
$command .= dirname(__FILE__).'\..\mysql\bin\mysqldump --opt -Q '."$result[Database] -u{$db_username} ".($db_password?"-p{$db_password}":"")." > $nowdir\\$result[Database].sql \r\n";
$command .= "echo dumping database `$result[Database]`... \r\n";
}
$command .= "echo Winrar loading...\r\n";
$command .= dirname(__FILE__)."\\WinRAR\\WinRAR.exe a -ep1 -r -o+ -m5 -df \"$nowdir.rar\" \"$nowdir\" \r\n";
$command .= "echo OK!\r\n";
$command .= "del mysqldumping_temp.bat\r\n";
$fp = fopen('mysqldumping_temp.bat','w');
fwrite($fp,$command);
fclose($fp);
//删除 5 天前的文件
@unlink("$store_folder\\".date("Ymd",$time-86400*5).".rar");
?>
5. D:/php 下建立文件 mysql_backup.bat,内容为:
@echo off
php.exe mysql_backup.php
if exist mysqldumping_temp.bat call mysqldumping_temp.bat
6. 双击该 bat 文件运行,如果能备份了,OK,下一步添加任务计划.
7. 把 D:/php/mysql_backup 添加到任务计划,时间选每天. 根据服务器的监测结果,每天早上 5-8 时为流量低峰期. 由于 5-7 时有些数据库的清理工作,我把时间定在了早上 8 点整.
