网页的 gzip 压缩和 HM 主机问题分享

silon212 · 发表于 2011-1-30 12:02:11

分享两篇自己的文章，关于进行网页 gzip 压缩的内容，含在 HM 虚拟主机上启动 gzip 的一些问题。在 HM 上折腾了很久 gzip 的事，有过弯路，愿自己的经验能帮到别人。

---------------

第一篇使用 gzip 或 deflate 压缩网页内容

gzip 压缩基础知识，mod_deflate 使用，以 wordpress 为例（不局限于 wp），原文：http://codingdao.com/wp/post/gzip-deflate-compress-web-content/

----------------

使用 gzip 或 deflate 压缩网页内容

使用 gzip 或 deflate 压缩网页内容，可以达到加快网页传输速度的效果，这对于文本性质的数据 (html, xml, txt, js,css) 很明显。但副作用是增加了服务器的处理器和内存开销，对于访问压力大的网站还得做静态与动态内容的分离与 cache。

缘由

在 HTTP (RFC2616) 中请求消息中有一个头域叫做 Accept-Encoding，它表示浏览器可以接受的数据编码方式，这里Encoding 不是指媒体编码（媒体编码由请求消息的 Accept 和响应消息的 Content-Type负责），而是指数据传输时采用的压缩编码，通常的取值是 gzip,deflate；相应地，在 HTTP 响应消息中有一个头域叫做Content-Encoding，它表示 HTTP 响应消息体数据采用的压缩编码。

有两种常用的 Content-Encoding：gzip 和 deflate。如果指定 gzip，表示 HTTP 响应消息体是按 gzip 方式压缩的，我曾经用 zlib 写过一个 HTTP 协议测试器，发现这些消息体就是 .gz 文件。

而如果 Content-Encoding 指定 deflate，则情况有点复杂：deflate (RFC1951)是一种基本的压缩算法，gzip (RFC1952) 和 zlib (RFC1950) 格式都是基于 deflate压缩数据的包裹。RFC2616 中说当 Content-Encoding 指定 deflate 时，应该以 zlib 方式传输数据。而且zlib 格式比 gzip 更适合作为网络传输压缩编码，原因是：更短的头部、更好的流操作、和更快的校验（zlib的设计目标就是作为传输压缩编码，而 gzip 更多的用在文件压缩编码）。但各浏览器对 Content-Encoding=deflate的处理不一致，所以为了兼容性还是用 Content-Encoding=gzip 的压缩方法多些。

参考：zlib 使用介绍

这是我用 Firefox 的 HttpFox 抓取的访问 Google 主页的 HTTP 消息，它的主页就是用 gzip 压缩的。

判断服务器主机支持的压缩

网上流传一种说法用 PHP 函数 phpinfo() 查看 _SERVER["HTTP_ACCEPT_ENCODING"]这项的值，来判断服务器主机支持的压缩，这是不对的。_SERVER["HTTP_ACCEPT_ENCODING"] 是判断浏览器当前请求中的Accept-Encoding 头域的值，表示的是浏览器的能力而非服务器的（参考：$_SERVER），之所以能显示 gzip 或 deflate 是因为主流浏览器都支持至少一种压缩编码。例如，自建的 Apache 服务在没有启用 mod_deflate 时用 Firefox3 浏览也会在 phpinfo() 页面返回 gzip,deflate。

对于 PHP 的 zlib 模块可以用 if (extension_loaded('zlib')) 代码测试；对于 Apache 可以用 <IfModule mod_deflate.c> 测试。

使用 Apache 的 mod_deflate 压缩

参考：Apache Module mod_deflate

在 Apache 配置文件 (normally httpd.conf) 或目录级配置文件 (normally .htaccess) 中加入配置，如下：

全局配置文件 (httpd.conf)

# 加载 mod_deflate 模块
LoadModule deflate_module modules/mod_deflate.so
# 指定目录下的文件使用压缩
<Directory "/www-root/dir">
# 压缩率，从最小压缩率 = 1 到最高压缩率 = 9
DeflateCompressionLevel 5
SetOutputFilter DEFLATE
# 压缩日志
DeflateFilterNote Input instream
DeflateFilterNote Output outstream
DeflateFilterNote Ratio ratio
LogFormat '"%r" %{outstream}n/%{instream}n (%{ratio}n%%)' deflate
CustomLog logs/deflate_log.log deflate
</Directory>

复制代码

目录级配置文件 (.htaccess)

要启用 .htaccess，一定要在全局配置文件中将相应目录的 AllowOverride赋值为“可覆盖全局设置”的值，如：AllowOverride FileInfo 或 AllowOverride All。.htaccess的配置，对这个目录下的所有子目录和文件起作用，子目录下仍可以有 .htaccess 来覆盖上级目录的设置，以此类推。.htaccess中不能有 <Directory> 指示。

(1). 方式一，根据 MIME 类型使用压缩

<IfModule mod_deflate.c>
# 根据 MIME 类型使用压缩
AddOutputFilterByType DEFLATE text/plain
AddOutputFilterByType DEFLATE text/html
AddOutputFilterByType DEFLATE text/xml
AddOutputFilterByType DEFLATE text/css
AddOutputFilterByType DEFLATE application/xml
AddOutputFilterByType DEFLATE application/xhtml+xml
AddOutputFilterByType DEFLATE application/rss+xml
AddOutputFilterByType DEFLATE application/javascript
AddOutputFilterByType DEFLATE application/x-javascript
AddOutputFilterByType DEFLATE application/x-httpd-php
AddOutputFilterByType DEFLATE application/x-httpd-fastphp
AddOutputFilterByType DEFLATE image/svg+xml
</IfModule>

复制代码

(2). 方式二，除过排除类型文件和特殊的浏览器外，对其它文件均启动压缩

<IfModule mod_deflate.c>
# 启动压缩
SetOutputFilter DEFLATE
# 解决一些对压缩处理有问题的浏览器
# Netscape 4.x 问题
BrowserMatch ^Mozilla/4 gzip-only-text/html
# Netscape 4.06-4.08 问题
BrowserMatch ^Mozilla/4\.0[678] no-gzip
# MSIE 没有问题，放过
BrowserMatch \bMSIE !no-gzip !gzip-only-text/html
# 由于 Apache 2.0.48 中 mod_setenvif 的 bug，上面的表达式
# 可能不工作，此时可以使用下面的
# BrowserMatch \bMSI[E] !no-gzip !gzip-only-text/html
# 不压缩图像文件
SetEnvIfNoCase Request_URI \
\.(?:gif|jpe?g|png)$ no-gzip dont-vary
# 让袋里服务器不转发正确的头部
Header append Vary User-Agent env=!dont-vary
</IfModule>

复制代码

使用 PHP 的 zlib 库压缩

上面走的是 Apache→mod_deflate→zlib 的路线，这里走的是 PHP→zlib 的路线。例如，对于 WordPress 可以使用这种压缩方法。

参考：Output Compression

在 WordPress 目录下的 index.php 中加入：

// 判断浏览器是否支持 gzip
if (ereg('gzip', $_SERVER['HTTP_ACCEPT_ENCODING']))
{
// 绕过 URI 目录 bypass-dir 下的内容不压缩
$bypass = '/bypass-dir';
if (substr($_SERVER['REQUEST_URI'], 0, strlen($bypass)) != $bypass)
ob_start('ob_gzhandler');
}

复制代码

这个 ob_start('ob_gzhandler') 只针对 text/html 进行压缩，而 css、js 都没有压缩。可以使用万戈写的 gzip.php 来压缩 css、js，其实现原理是用 mod_rewrite 将 css、js 请求重定向到 gzip.php，再用 gzip.php 读取响应文件进行压缩。步骤如下：

1. 在 WordPress 目录下的 .htaccess 中加重定向规则：

RewriteRule (.*.css$|.*.js$) gzip.php?$1 [L]

复制代码

2. 保存下面代码为 gzip.php，放到 WordPress 目录下：

<?php
// FROM: http://wange.im/turn-on-gzip-speed-up-wordpress.html
define('ABSPATH', dirname(__FILE__).'/');
// Gzip 压缩开关
$cache = true;
// 存放gz文件的目录，确保可写
$cachedir = 'wp-cache/';
$gzip = strstr($_SERVER['HTTP_ACCEPT_ENCODING'], 'gzip');
$deflate = strstr($_SERVER['HTTP_ACCEPT_ENCODING'], 'deflate');
$encoding = $gzip ? 'gzip' : ($deflate ? 'deflate' : 'none');
if (!isset($_SERVER['QUERY_STRING'])) exit();
$key = array_shift(explode('?', $_SERVER['QUERY_STRING']));
$key = str_replace('../','',$key);
$filename = ABSPATH.$key;
$symbol = '^';
$rel_path = str_replace(ABSPATH,'',dirname($filename));
$namespace = str_replace('/',$symbol,$rel_path);
// 生成gz文件路径
$cache_filename = ABSPATH.$cachedir.$namespace.$symbol.basename($filename).'.gz';
// 默认的类型信息
$type = "Content-type: text/html";
// 根据后缀判断文件类型信息
$ext = array_pop(explode('.', $filename));
switch ($ext)
{
case 'css':
$type = "Content-type: text/css";
break;
case 'js':
$type = "Content-type: text/javascript";
break;
default:
exit();
}
if ($cache)
{
// 假如存在gz文件
if (file_exists($cache_filename))
{
$mtime = filemtime($cache_filename);
$gmt_mtime = gmdate('D, d M Y H:i:s', $mtime) . ' GMT';
// 浏览器cache中的文件修改日期是否一致，将返回304
if ((isset($_SERVER['HTTP_IF_MODIFIED_SINCE']) &&
array_shift(explode(';', $_SERVER['HTTP_IF_MODIFIED_SINCE'])) == $gmt_mtime))
{
header ("HTTP/1.1 304 Not Modified");
header("Expires: ");
header("Cache-Control: ");
header("Pragma: ");
header($type);
header("Tips: Cache Not Modified (Gzip)");
header ('Content-Length: 0');
}
// 读取gz文件输出
else
{
$content = file_get_contents($cache_filename);
header("Last-Modified:" . $gmt_mtime);
header("Expires: ");
header("Cache-Control: ");
header("Pragma: ");
header($type);
header("Tips: Normal Respond (Gzip)");
header("Content-Encoding: gzip");
echo $content;
}
}
// 没有对应的gz文件
else if (file_exists($filename))
{
$mtime = mktime();
$gmt_mtime = gmdate('D, d M Y H:i:s', $mtime) . ' GMT';
// 读取文件
$content = file_get_contents($filename);
// 压缩文件内容
$content = gzencode($content, 9, $gzip ? FORCE_GZIP : FORCE_DEFLATE);
header("Last-Modified:" . $gmt_mtime);
header("Expires: ");
header("Cache-Control: ");
header("Pragma: ");
header($type);
header("Tips: Build Gzip File (Gzip)");
header ("Content-Encoding: " . $encoding);
header ('Content-Length: ' . strlen($content));
echo $content;
// 写入gz文件，供下次使用
if ($fp = fopen($cache_filename, 'w'))
{
fwrite($fp, $content);
fclose($fp);
}
}
else
header("HTTP/1.0 404 Not Found");
}
// 处理不使用Gzip模式下的输出。原理基本同上
else
{
if (file_exists($filename))
{
$mtime = filemtime($filename);
$gmt_mtime = gmdate('D, d M Y H:i:s', $mtime) . ' GMT';
if ((isset($_SERVER['HTTP_IF_MODIFIED_SINCE']) &&
array_shift(explode(';', $_SERVER['HTTP_IF_MODIFIED_SINCE'])) == $gmt_mtime))
{
header ("HTTP/1.1 304 Not Modified");
header("Expires: ");
header("Cache-Control: ");
header("Pragma: ");
header($type);
header("Tips: Cache Not Modified");
header ('Content-Length: 0');
}
else
{
header("Last-Modified:" . $gmt_mtime);
header("Expires: ");
header("Cache-Control: ");
header("Pragma: ");
header($type);
header("Tips: Normal Respond");
$content = readfile($filename);
echo $content;
}
}
else
header("HTTP/1.0 404 Not Found");
}
?>

复制代码

其它压缩方法

WordPress 还可以使用 gzippy 插件进行压缩。

测试页面压缩效率的在线服务

Port80 Software httpZip
WhatsMyIP HTTP Compression Test
站长工具网页GZIP压缩检测

silon212 · 发表于 2011-1-30 12:17:46

第二篇再谈网页的 gzip 压缩

PHP ob_gzhandler、zlib.output_compression 压缩方法，HM 主机 gzip 压缩问题，压缩 .css、.js 文件，缓存压缩后的文件，原文：http://codingdao.com/wp/post/gzip-compress-web-extra/

----------------

前篇：使用 gzip 或 deflate 压缩网页内容

因为前篇中提到的 mod_deflate 网页压缩的方法，在某些主机服务商的配置中没有完全的控制权限，如我的 HostMonster (HM) 虚拟主机（非专用 IP），最近又搞了搞 gzip 网页压缩的事情，写下总结，当做前篇的补充和深入。

此篇的主要内容有：

(1). 介绍和实测前篇中没有详细说明的几种 gzip 压缩网页的方法。

(2). 针对在 HM 虚拟主机（非专用 IP）上做 gzip 网页压缩，进行说明。

(3). 记录自己的一个缓存 gzip 压缩网页方案：mod_rewrite 重定向 css/js + gzip 压缩脚本 (Python CGI)

另外几种 gzip 压缩网页的方法

用 PHP ob_gzhandler 压缩

这个方法在前篇中也提到过：用它可以 gzip 压缩 PHP 的动态页面，通过 mod_rewrite + gzip 压缩脚本，也可以实现压缩 .css、.js 等文本文件。

这里是另一种利用 ob_gzhandler 压缩 .css、.js 的方法。

* ob_gzhandler 压缩 PHP 页面配置步骤：

   (1). 在 php.ini 中设置 output_handler = ob_gzhandler

   (2). 在 .htaccess 中加入 php_value output_handler ob_gzhandler（HM 虚拟主机不允许）

   (3). 在 php 脚本前加入 ob_start('ob_gzhandler')

* 压缩 .css、.js。在 .css 的头部加入：

<?php
if (extension_loaded('zlib'))
ob_start('ob_gzhandler');
header("Content-Type: text/css");
?>

复制代码

对于 .js 将上面的 MIME 类型换成 application/javascript。

在 .css、.js 的尾部加入：

<?php
if (extension_loaded('zlib'))
ob_end_flush();
?>

复制代码

更改 .css、.js 文件名为 .css.php、.js.php，并更改引用 css、javascript 脚本的代码，如：

<script src="a.js.php" type="text/javascript"></script>
<link href="a.css.php" rel="stylesheet" type="text/css" />

复制代码

用 PHP 配置中的 zlib.output_compression

在 php.ini 中设置：

output_buffering = Off
output_handler =
zlib.output_compression = On

注意：

* 对于 zlib.output_compression 和 ob_gzhandler 两种压缩方法，两者应该只选其中一种方法。当启动 zlib.output_compression 压缩时，应关闭每个应用自己的 gzip 压缩，如 Discuz、WordPress 的 gzip 功能。

* 对于虚拟主机用户，php.ini 的位置在 web 主目录下，如 HM 的 public_html，如果没有可以登录 cPanel 后台，在 PHP 配置中产生。

HM 虚拟主机默认的 php.ini 配置不会向下级目录传递（表示每个子目录都由自己的 php.ini 来控制），可以在 cPanel 的 PHP 配置中将其改为使用单一的 Single php.ini（表示 web 根目录下的 php.ini 将应用到所有子目录）。

* 可以在 .htaccess 中配置 PHP，代替上面的在 php.ini 中的配置 (mod_php)，如下：

php_flag zlib.output_compression On
php_value zlib.output_compression_level 8

但是在 HM 虚拟主机上 mod_php 因为安全原因被禁止了，所以不行。

* 压缩静态页面。在 .htaccess 中添加如下 Handler，让 Apache 将 .html 当做 PHP 脚本编译，这会增加服务器处理静态页面的开销。

AddHandler x-httpd-php .html .htm

HostMonster 虚拟主机的 gzip 网页压缩

最近再次做 gzip 网页压缩的一个原因是：以前配好的 HM 主机 gzip 网页压缩突然失效了，而中途没有更改任何的服务配置文件。

为此，我问了 HM 的服务人员，他说：HM 的 gzip 网页压缩不用用户操心，HM 会视服务器 CPU 负载情况来启动 gzip 压缩，如果 CPU 负载过高，就不会启动压缩了，这是 HM 唯一的 gzip 压缩策略（原话）。

后来，我的网页压缩功能又正常了，看来确实如 HM 服务人员所说，是 HM 主机自动进行 gzip 压缩的，并不是自己配置的 .htaccess 中的 mod_deflate 起作用，现在将自己的 mod_deflate 配置删掉仍然会有 gzip 压缩。

以下是我观察的 HM 虚拟主机的 gzip 压缩策略总结：

* 静态页面：没有 Vary: Accept-Encoding 和 Content-Encoding: gzip，即不启用 gzip 压缩，但用 304 进行客户端缓存。
* 动态页面：有 Vary: Accept-Encoding 和 Content-Encoding: gzip，但只对页面进行压缩，对 css、javascript、xml 等其它文本文件不进行压缩。

Vary: Accept-Encoding 的作用，是让 HM 的前端服务器缓存页面返回时根据客户端的 Accept-Encoding 来决定是否传回压缩的数据。

我的 gzip 压缩方案

我用这个方法来解决压缩 .css、.js 等文件的问题。

压缩的开销问题

为什么 HM 会根据 CPU 负载来启动压缩？为什么会有 Vary: Accept-Encoding？其实大家都明白，对每次请求都做 gzip 压缩确实挺耗 CPU，所以和 gzip 压缩相比，对于提高整个 Web 系统的性能而言，更重要的是 cache，各种层次的 cache。

比如上文提到的用 AddHandler x-httpd-php .html 的方法让服务器把静态页面当做动态页面，从而进行压缩后传输，这是最不可取的，本来静态页面可用 304 Not Modified 进行客户端缓存，但是用了此压缩方法后反而会传输更多的数据。

所以为了配合 gzip 压缩，较好的方法是将之前压缩后的数据保存起来 (cache)，以后请求该资源时，让服务器直接返回缓存的压缩数据即可。这种方法对 .css、.js、.xml 等静态文件特别适用。

我的方法是用 mod_rewrite 重定向 .css、.js 文件到对应的 .gz 文件来完成上述压缩缓存功能，步骤如下：

1. 配置 .htaccess

在需要压缩网页的目录下，配置 .htaccess，如下：

# gzip 压缩 css/js cache BEGIN
# 针对 .js.gz 设定 MIME 和 Encoding
<Files *.js.gz>
AddEncoding x-gzip .js
ForceType application/javascript
</Files>
<Files *.css.gz>
AddEncoding x-gzip .css
ForceType text/css
</Files>
<IfModule mod_rewrite.c>
RewriteEngine On
# 要启动压缩的目录，如 WordPress 目录 /wp/
RewriteBase /wp/
# 如果 .css、.js 已压缩的缓存 .gz 文件存在，则重定向到 .gz
# 注意使用 QSA，表示重定向时包含 URL 查询串
RewriteCond %{HTTP:Accept-Encoding} gzip
RewriteCond %{REQUEST_FILENAME}.gz -f
RewriteRule ^(.*\.css|.*\.js)$ $1.gz [L,QSA,NC]
# 如果 .css、.js 对应的 .gz 不存在，并且浏览器支持 gzip
# 则交给 mygzip.py 处理请求
RewriteCond %{HTTP:Accept-Encoding} gzip
RewriteCond %{REQUEST_FILENAME} (\.css|\.js)$ [NC]
RewriteCond %{REQUEST_FILENAME}.gz !-f
RewriteRule ^(.*\.css|.*\.js)$ /cgi-bin/mygzip.py [L,QSA,NC]
</IfModule>
# gzip 压缩 css/js cache END

复制代码

为什么要有 <Files>？因为重定向到 *.css.gz 后，对于 .gz 文件，服务器返回默认的 MIME 和 Encoding 是：

Content-Type: application/x-gzip
没有 Content-Encoding

ForceType text/css 的作用是让 MIME 类型变为 Content-Type: text/css。

AddEncoding x-gzip .css 的作用是增加 Content-Encoding: gzip。使用 AddEncoding x-gzip .gz 也可以达到同样效果，但使用 AddEncoding x-gzip .css.gz 不行。

而用 <Files> 指示是让 ForceType 和 AddEncoding 命令约束在一种文件扩展名上，即 *.css.gz。比如，此时浏览器请求 a.gz 和 a.css.gz，两者会有不一样的行为，前者的 MIME 仍然是默认的 application/x-gzip，浏览器一般的处理是提示下载；而后者是 text/css 类型，直接会在浏览器中显示文本。

潜在的问题：因为使用 AddEncoding，可能导致一些早期不支持 gzip 压缩的浏览器在浏览网页时出现问题。

2. 准备 CGI 脚本 mygzip.py

将 mygzip.py 保存到上述 .htaccess 中提及的位置，如 /cgi-bin/mygzip.py。

要使用 Python CGI 脚本，设置 Apache 配置文件或 .htaccess：

AddHandler cgi-script .py .pyc

并注意保存 CGI 脚本目录的权限，至少应该有 Options ExecCGI。一般情况下对于目录 /cgi-bin，主机服务商都已设置好 CGI 目录配置。

mygzip.py 的代码如下，.py 脚本应使用 #coding=utf-8 指示的字符集编码保存（因为 Python 脚本默认编码为 ASCII，但脚本中有中文注释）：

#!/usr/bin/env python
#coding=utf-8
##########
#
# 本 cgi 脚本使用 gzip 压缩服务端文件，如 .css .js 等，并将压缩内容传回浏览器
# 可以使用 .htaccess 缓存压缩后的 .gz 文件，以便之后请求这些文件时，不再调用本脚本进行压缩
#
# 执行本 cgi 脚本的前置条件:
# 浏览器支持 gzip 压缩，即 Accept-Encoding 中含 gzip
# 来自于对 .css .js 等文件请求的重定向，原始文件由服务器变量 REQUEST_URI REDIRECT_URL 等推出
#
# CAUTION:
# 本脚本不能命名为 gzip.py，因为 gzip 库的名字为这个，如果命名为 gzip.py，import gzip 会引起
# 递归导入自己，而不是 gzip 库
#
# by breaker.zy@gmail.com, 2010-12
#
##########
import datetime
import sys
import os.path
import cgi
import gzip
O_BINARY = 0
O_TEXT = 1
if sys.platform == 'win32' :
import msvcrt
O_BINARY = os.O_BINARY
O_TEXT = os.O_TEXT
MIME_EXTS = {'.css' : 'text/css', '.js' : 'text/javascript'}
LOG_NAME = 'mygzip.log'
LOG_SIZE_LIMIT = 1 << 20
# 出错页
def errpage(stat_code, stat_desc, content) :
page = '''Status: %s %s
Content-Type: text/plain
%s''' % (stat_code, stat_desc, content)
print page
# 设置文件模式，只对 Windows 有效，Unix 不区别 'w' 和 'wb' 模式
def setfmode(fd, mode) :
if sys.platform == 'win32' :
fd.flush()
msvcrt.setmode(fd.fileno(), mode)
# path.join() 在 Windows 下不适合
def myjoin(dir_name, file_name) :
if dir_name[-1] != '/' and file_name[0] != '/' :
full_name = dir_name + '/' + file_name
else :
full_name = dir_name + file_name
return full_name
def main() :
fname_old = myjoin(os.environ['DOCUMENT_ROOT'], os.environ['REDIRECT_URL'])
now = datetime.datetime.now()
# 打开日志
logsize = 0
try :
logsize = os.path.getsize(LOG_NAME)
except Exception, ex :
pass
if logsize > LOG_SIZE_LIMIT :
f_log = open(LOG_NAME, 'w')
else :
f_log = open(LOG_NAME, 'a')
# 将要产生的 gzip 文件全路径
fpath_gz = fname_old + '.gz'
# 读取原始文件
try :
f_old = open(fname_old, 'rb')
except IOError, ex :
errpage('404', 'Not Found', 'open() error: %s' % str(ex))
exit(-1)
# 保存原来的工作目录
old_wd = os.getcwd()
# 进入原始文件所在的目录，这样压缩可以直接使用文件名，而不用路径，.gz 文件中也不会有目录结构
wd = os.path.dirname(fname_old)
os.chdir(wd)
fname_gz = os.path.basename(fpath_gz)
f_log.write('%s %s\n' % (now.strftime('%Y-%m-%d %H:%M:%S'), fpath_gz))
# gzip 写入压缩文件
f_gz = gzip.open(fname_gz, 'wb')
f_gz.writelines(f_old)
f_gz.close()
f_old.close()
# 恢复原来的工作目录
os.chdir(old_wd)
# 计算 MIME 类型
mimetype = 'text/plain'
for ext in MIME_EXTS.keys() :
if fname_old.endswith(ext) :
mimetype = MIME_EXTS[ext]
break
print 'Content-Type:', mimetype
print 'Content-Encoding: gzip'
print 'Accept-Ranges: bytes'
print 'Content-Length: %d' % os.path.getsize(fpath_gz)
print ''
f_gz = open(fpath_gz, 'rb')
# 需将 Windows 的 stdout 设为 binary 模式，因为 Windows python stdout 默认
# 的文本模式会转换 \n => \r\n，而输出的 .gz 是二进制文件，不能改变其任何字节
setfmode(sys.stdout, O_BINARY)
sys.stdout.writelines(f_gz)
setfmode(sys.stdout, O_TEXT)
f_gz.close()
f_log.close()
if __name__ == '__main__' :
main()

复制代码

HM 虚拟主机使用 Python 2.4。

使用 mygzip.py 的 gzip 压缩

配置好后，第一次正常浏览网页时，mygzip.py 将压缩该网页引用的所有 .css、.js 文件，并保存到同目录同名带 .gz 后缀的文件中。第一次以后访问同一个页面，便不再执行 mygzip.py，只有 mod_rewrite 负责传回 .gz 文件，直到删除相应的 .gz 文件。

可以查看 mygzip.py 同目录下的日志 mygzip.log，这里保存所有压缩过的文件的路径。

对于更改后的 .css、.js 文件，需要将其之前对应的 .css、.js 手工删除，浏览网页时，再次让 mygzip.py 产生新的 .gz 文件。

结束

最近试运行了几天 mygzip.py 效果还行。也有一些其它工作可以配合这种压缩方案去做，比如将缓存的 .gz 保存到内存盘改进性能，根据日志 mygzip.log 进行缓存的 .gz 文件的清理等。

开心私塾 · 发表于 2011-1-30 12:40:36

恩写的不错，支持一下

silon212 · 发表于 2011-2-10 17:13:01

对之前的 mygzip.py (CGI) 的使用做一下更新

(1). 之前的 mygzip.py 有点小问题，如果是 HM 主机用的是 py2.4 则没有全局的 exit() 函数，所以要把 exit(-1) 改成 sys.exit(-1)，当时开发时在 py2.6 下，所以没发现这个 BUG。

(2). 写了一个 clean_mygzip.py，它是一个清理 mygzip.py 的压缩日志 mygzip.log 的程序，配合 mygzip.py 起来很好。

功能是根据“压缩的时间范围条件”和“压缩后的 gzip 文件名模式”匹配日志 mygzip.log 中记录的 .gz 文件路径，然后删除这些缓存的 .gz 文件，并清理日志中对应的行。

当更新 .css、.js 后，可以用 clean_mygzip.py 清理以前经 mygzip.py 压缩后缓存的 .css.gz、.js.gz 文件。也可用 cron 定时执行 clean_mygzip.py

其实，用 find 命令的 -iname 和 -newer 选项也可以完成 clean_mygzip.py 的批量删除缓存 .gz 的作用，但是考虑 web 服务目录下可能有除 mygzip.py 生成的 .gz 之外的其它的 .gz 文件，所以最好还是读取 mygzip.py 的压缩日志，根据日志的记录来删除缓存的 .gz。

使用示例：

# 最简单的使用方法：删除所有 mygzip.log 中记录的 .gz 文件，并清空日志
clean_mygzip.py -l mygzip.log
# 删除 mygzip.log 中所有匹配文件名 index.css 或 index.js 的 .gz 文件，如 index.css.gz
clean_mygzip.py -f "index\.(css|js)" -l mygzip.log
# 删除 mygzip.log 中压缩时间从 2011-01-27 21:24:57 到现在的 .gz 文件
clean_mygzip.py -t 2011/1/27@21:24:57- -l /path/to/mygzip.log

复制代码

clean_mygzip.py 代码如下：

#!/usr/bin/env python
#coding=utf-8
##########
#
# 本脚本是配合 mygzip.py CGI 脚本的程序
# 本脚本读取 mygzip.py 生成的 gzip 压缩日志文件 mygzip.log，根据指定时间和 gzip
# 路径名条件，删除日志中匹配的 gzip 文件，并清理日志中的匹配行
#
# 使用示例：
# clean_mygzip.py -f "index\.(css|js)" -t 2011/1/27@21:24:57- -l /path/to/mygzip.log
# 表示删除 mygzip.log 中记录的 gzip 压缩时间从 2011-01-27 21:24:57 到现在的 gzip 文件，
# 并且这些 gzip 文件名为 index.css.gz 或 index.js.gz；删除掉 gzip 文件后，也会清理日志中
# 的对应行
#
# -t 指定的时间格式为 'BEG-END'，BEG 和 END 的格式都为 'YYYY/MM/DD@HH:MM:SS'
# BEG 为开始时间，如果省略 BEG，取开始时间为 1900/01/01@00:00:00
# END 为结束时间，如果省略 END，取结束时间为当前时间（web 服务器）
# -f 指定的 gzip 文件路径正则表达式，如果其中有空格字符，需用 "" 括起来（不要用 '' 括起来）
# 如 -f "index style\.css"
#
# 如果省略 -t，表示对所有的压缩时间都会清理，是否清理由 -f 指定的文件名模式（正则）决定
# 如果省略 -f，表示对所有的 gzip 文件名都会清理，是否清理由 -t 指定的时间范围决定
# -t、-f 都省略，表示将删除日志中所有行对应的 gzip 文件，日志也将会清空
#
# 文件共享操作问题：
# 因为 mygzip.log 日志可能正在由 mygzip.py CGI 脚本访问，并且
# 需要删除的 gzip 文件，可能正在由 web 服务访问
# 如果删除 gzip 文件失败，会将删除失败的日志行写入新的日志文件：和 -l 指定的日志文件同目录同名带 .err 的文件
# 如果删除原 -l 日志文件失败，则保留处理后的临时日志文件，此后可手工重命名
#
# by breaker.zy@gmail.com, 2011-01
#
##########
import sys
import os.path
import datetime
import time
import getopt
import re
import random
SCRIPT_NAME = ''
GZIP_PATTERN = ''
GZIP_LOG = ''
NOW = datetime.datetime.now()
TIME_BEGIN = None
TIME_END = None
DEF_TIME_BEGIN = datetime.datetime(1900, 1, 1)
DEF_TIME_END = NOW
STRTIME_END = 19
ERR_LOG_SUFFIX = '.err'
def usage() :
print 'usage:'
print SCRIPT_NAME, '-t TIME-RANGE -f GZIP-FILE-REGEX -l MYGZIP.log\n'
print " all gzip files matched by -t AND -f condition in MYGZIP.log will be deleted, and the matched line in log file will be removed.\n"
print "-t give time range, format is 'YYYY/MM/DD@HH:MM:SS-YYYY/MM/DD@HH:MM:SS'"
print " if begin time omited, it uses '%s'" % datetime.datetime(1900,1,1).strftime('%Y/%m/%d@%H:%M:%S')
print " if end time omited, it uses Current Time."
print " if -t omited, any time is accepted.\n"
print "-f give the gzip file path pattern."
print " it uses regular expression to match file path."
print " if -f omited, any gzip file path is matched.\n"
print "-l give the mygzip generated log file path."
print " -l is mandatory."
# 解决 datetime.strptime() 在 Python 2.5 之后才可用的问题
def strptime_(strdate, datefmt) :
return datetime.datetime(*(time.strptime(strdate, datefmt)[0:6]))
# 解析命令行参数
def parse_opts() :
global SCRIPT_NAME, GZIP_LOG, GZIP_PATTERN, TIME_BEGIN, TIME_END
SCRIPT_NAME = os.path.basename(__file__)
try :
opts, left_args = getopt.getopt(sys.argv[1:], 't:f:l:')
except Exception, ex :
print 'parse options error:', str(ex), '\n'
usage()
sys.exit(-1)
time_range = ''
for o, a in opts :
if o == '-t' :
time_range = a.strip()
elif o == '-f' :
GZIP_PATTERN = a
elif o == '-l' :
GZIP_LOG = a.strip()
if GZIP_LOG == '' :
print '-l is mandatory, and MUST NOT be none.\n'
usage()
sys.exit(-1)
# 解析 -t 选项
if time_range != '' :
# BEGIN
time_range = time_range.split('-')
if len(time_range) != 2 :
print '-t time range format is wrong.\n'
usage()
sys.exit(-1)
dt = []
try :
for i in (0, 1) :
if time_range[i].strip() == '' :
if i == 0 :
dt.append(DEF_TIME_BEGIN)
else :
dt.append(DEF_TIME_END)
else :
dt.append(strptime_(time_range[i], '%Y/%m/%d@%H:%M:%S'))
except Exception, ex :
print '-t time range format is wrong:', str(ex), '\n'
usage()
sys.exit(-1)
TIME_BEGIN = dt[0]
TIME_END = dt[1]
if TIME_BEGIN > TIME_END :
print "-t time range is weird: begin time '%s' is later than end time '%s'\n" % (TIME_BEGIN.strftime('%Y/%m/%d@%H:%M:%S'), TIME_END.strftime('%Y/%m/%d@%H:%M:%S'))
usage()
sys.exit(-1)
# END
# TEST
def test() :
print '***** TEST BEGIN *****'
if TIME_BEGIN != None and TIME_END != None :
print 'begin time: %s, end time: %s' % (TIME_BEGIN.strftime('%Y/%m/%d@%H:%M:%S'), TIME_END.strftime('%Y/%m/%d@%H:%M:%S'))
else :
print '-t is not given.'
print "gzip pattern: [%s]" % GZIP_PATTERN
print "log file: [%s]" % GZIP_LOG
print '***** TEST END *****'
def main() :
try :
f_log = open(GZIP_LOG, 'r')
except Exception, ex :
print 'open mygzip log file error:', str(ex)
sys.exit(-1)
# 处理日志的每一行
ln = 0
will_del = False
update_log = False
remainlns = []
failedlns = [] # 匹配删除 gzip 文件的行，但删除 gzip 文件失败的行
for line in f_log :
# BEGIN
line = line.strip()
ln += 1
strtime = line[:STRTIME_END]
gzpath = line[STRTIME_END + 1:].lstrip()
# TEST
#print 'strtime: [%s]' % strtime
#print 'gzpath: [%s]' % gzpath
try :
dt = strptime_(strtime, '%Y-%m-%d %H:%M:%S')
if gzpath == '' :
raise AssertionError, 'there is no gzip file path in log file'
except Exception, ex :
print 'log file may corrupt:'
print ' log file format is wrong:', str(ex)
print ' line %d, log file path: %s' % (ln, f_log.name)
sys.exit(-1)
# 判断 -t 条件（时间匹配）
if TIME_BEGIN != None and TIME_END != None :
will_del = (dt >= TIME_BEGIN and dt <= TIME_END)
else :
will_del = True
# -t、-f 之间是与关系，必需同时满足才删除 gzip 文件
if not will_del :
remainlns.append(line)
continue
# 判断 -f 条件（gzip 文件路径匹配）
if GZIP_PATTERN == '' :
will_del = True
else :
will_del = (re.search(GZIP_PATTERN, gzpath) != None)
# 删除 gzip 文件
# TEST
#print 'will_del:', will_del
if will_del :
update_log = True
if not remove_file(gzpath) :
failedlns.append(line)
else :
remainlns.append(line)
# END
# TEST
#print 'failedlns:', failedlns
#print 'remainlns:', remainlns
f_log.close()
if update_log :
write_log(remainlns, failedlns)
# 写入处理后的 mygzip 日志文件，remainlns 是原日志中未匹配删除 gzip 文件的行，failedlns 是匹配删除 gzip 文件的行，但删除 gzip 文件失败
def write_log(remainlns, failedlns) :
tmpf = '%s_%s_%d' % (GZIP_LOG, NOW.strftime('%y%m%d%H%M%S'), random.randint(0,99))
while os.path.exists(tmpf) :
tmpf = '%s_%s_%d' % (GZIP_LOG, NOW.strftime('%y%m%d%H%M%S'), random.randint(0,99))
f_log = open(tmpf, 'w')
f_log.writelines(['%s%s' % (i, '\n') for i in remainlns])
f_log.close()
try :
if not remove_file(GZIP_LOG) :
raise AssertionError, 'cannot remove old log file: %s' % GZIP_LOG
os.rename(tmpf, GZIP_LOG)
except Exception, ex:
print 'rename temp file to old log file name error:', str(ex)
print ' temp file:', os.path.realpath(tmpf)
print ' old log file:', os.path.realpath(GZIP_LOG)
if failedlns != [] :
f_err = open(GZIP_LOG + ERR_LOG_SUFFIX, 'a')
f_err.writelines(['%s%s' % (i, '\n') for i in failedlns])
f_err.close()
# 删除 path 指定文件，retry 是删除失败时重试的次数，retry_wait 是重试前等待的时间间隔（秒）
def remove_file(path, retry = 3, retry_wait = 1) :
if not os.path.exists(path) :
return True
removed = False
i = 0
while i < retry and not removed :
i += 1
try :
os.remove(path)
removed = True
except Exception, ex :
if not os.path.exists(path) :
removed = True
time.sleep(retry_wait)
return removed
if __name__ == '__main__' :
parse_opts()
# test()
main()

复制代码

silon212 · 发表于 2011-2-10 17:23:16

纯属乱写，难登大雅。觉得脚本有什么毛病，尽请行家指教。

开心私塾 · 发表于 2011-2-11 09:11:14

楼主太谦虚了，

[经验] 网页的 gzip 压缩和 HM 主机问题分享

回复 3# 的帖子

回复 5# 的帖子

浏览过的版块

HostMonster讨论

[经验] 网页的 gzip 压缩和 HM 主机问题 分享

回复 3# 的帖子

回复 5# 的帖子

浏览过的版块

HostMonster讨论

[经验] 网页的 gzip 压缩和 HM 主机问题分享