raksmart活动促销

分享

写回答

发帖

一个容易被忽视但又非常重要的问题

互联网出海创业 互联网出海创业 4701 人阅读 | 10 人回复

发表于 2008-9-17 02:32:46 | 显示全部楼层 |阅读模式

一个网站不管规模有多大(包括国家级的网站),也避免不了转载。也就是说,“原创”与“转载”结合是办好网站和各种媒体的有效方法。而“转载”,传统的复制粘贴早已经落后了,一般都使用信息采集发布系统。最近,试用了几个采集程序,并也同部分开发者有过交流。我发现有一个问题非常容易被忽视但又非常重要。这就是中文编码的选择和使用问题!!!

这要从几个方面说:

1 对于安装在本地电脑中的采集程序:

一般中国人使用的操作系统中文默认编码是GBK,而目前采集程序一般都是GBK的。在本地电脑上显示程序界面没有问题。等到采集的时候,往往程序中都有信息源网站和目标网站的编码设置项,因此,一般也不会出现问题,除非忘记设置或者误操作。

2 对于在线采集程序:

这个就要特别注意了。无论是ASP、ASP.NET还是PHP编写的采集程序,程序开发者一般都选择GBK中文编码。如果用户网站使用的中文编码是GBK的,在采集程序的安装和使用上,都不会发现问题。但是,现在有越来越多的人在网站上使用了UTF-8中文编码。这问题就来了:

2-1 问题最轻的是在线程序界面上出现乱码。
这是程序中的中文编码与网站中文编码不一致的原因。如果网站使用的中文编码是UTF-8,那么需要用户将程序的中文编码转换成UTF-8。否则,连程序界面都看不见(一片乱码),何谈使用和设置呢?

2-2 问题比较严重的往往发生在入库程序上。这些程序很多开发者将其加密,用户若是采用一般的中文编码转换,那入库程序就不能使用。必须由程序开发者先行转换再加密提供给用户。

3 中文编码转换具体方法:

3-1 有些朋友使用记事本,一页一页地打开再“另存”(当然要重新选择编码方式了)。这还不错。因为采集程序一般文件数量少,不费太多的时间,但是,这是最原始也是最笨的方法。

3-2 使用转换工具:GBK2UTF8。这个小程序不错。快捷且故障率极低。可转单页,也可转整个目录。操作很容易。

3-3 使用DW最容易出现问题。DW只能自动地记忆初时编码标准。利用其转换编码是最最容易出现问题的。因此,忌讳使用其做编码转换。

4 运行入库程序出现空白页的问题:

笔者发现这里面也有编码标准的问题。不过有些程序开发者并不承认和同意笔者的观点。
另外,就是ZEND OPT的设置问题。对于有管理权限的虚拟主机,要在PHP.INI中增加设置(2个方面:一个是ZEND优化数量,另一个是确认加密读取)。

以上供使用采集程序的朋友们参考。

另一个办法:
如果你是使用美国主机,如果你安装的WEB采集程序与网站主体程序不关联,那么,你可以另外建立一个GBK语言集的MYSQL数据库,用这个数据库安装不经过中文编码转换的采集程序(WEB)。

注意:我说的是美国主机。对于中国大陆的主机就不能使用这个方法。因为那里的虚拟主机往往只有一个数据库而且容量很小。一旦你网站的主程序使用了UTF8语言集,那么,你就无法变换成新的语言集,即使能改变,你网站的主程序页面就出现乱码了。

因此,从这方面看,使用可自建多个数据库的主机比较好。比如,美国GD主机允许用户建立25个数据库。而这些数据库的费用都包括在主机租金中,不必另外付费。

回答|共 10 个

bingu

发表于 2008-9-17 08:24:12 | 显示全部楼层

什么观念

大漠孤狼

发表于 2008-9-17 09:49:48 | 显示全部楼层

采集是没用的,只能做垃圾站

ffnn

发表于 2008-9-17 14:03:52 | 显示全部楼层

不喜欢采集。更不喜欢复制别人的成果。

waluojia

发表于 2008-9-17 14:40:18 | 显示全部楼层

原帖由 bingu 于 2008-9-17 08:24 AM 发表
什么观念


观念:
1 “原创”+“转载”,是办好网站、报纸、杂志、电视台的重要方法(从内容而言);
2 人工转载(复制粘贴)效率低,可使用信息采集发布系统;
3 采集程序注意中文编码的使用(包括程序开发者)。
4 翻看各国的报纸,收看各国的电视,完全靠原创是不可能的。否则,也就没有国际间、国内的“节目交换和购买”这一说了。比如,每天《新闻联播》中的国内新闻,很多都是地方台的节目源;国际新闻,几乎全是其它国家电视台拍摄的画面。当然,这种节目交换和转载是有协议和代价的,不是偷。
5 我说的“转载”,与办垃圾站不是一个概念。采集器犹如菜刀,可切菜,也可做凶器,关键看你怎么使用。否则,各大通讯社也不必花巨资开设信息采集发布系统了。
以上是本人从事多年新闻媒体工作的体会,仅供非专业人员(包括网站站长)参考。若是认为不对,那你就一切自己原创吧,包括操作系统、各种应用程序和IT知识及技能。

[ 本帖最后由 waluojia 于 2008-9-17 02:44 PM 编辑 ]

ffnn

发表于 2008-9-17 16:47:13 | 显示全部楼层

网站建设是否原创还是采集,好像和 ”包括操作系统、各种应用程序和IT知识及技能。“这个没关系把。

330802

发表于 2008-9-18 15:10:33 | 显示全部楼层

,“原创”与“转载”,有用就好!

神猪

发表于 2008-9-18 15:20:37 | 显示全部楼层

采集 固然是有用的  就看怎么用了

boro

发表于 2008-9-21 10:15:18 | 显示全部楼层

垃圾站虽然没有长期价值,但短期价值还是可观的

waluojia

发表于 2008-10-9 03:56:41 | 显示全部楼层

抽空把中国官方通讯社~新华社的采集系统概要资料发上来,大家看看,有启发的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则