GB 18030的雙字節(jié)部分完全采用了GBK的內(nèi)碼系統(tǒng)。在此基礎(chǔ)上,做了四字節(jié)擴展,四個字節(jié)的編碼空間依次是:0x81到0xFE,0x30到0x39,0x81到0xFE,0x30到0x39。總共1,587,600個碼位

目前創(chuàng)新互聯(lián)已為1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計、偏關(guān)網(wǎng)站維護等服務(wù),公司將堅持客戶導向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
就是說你不能僅僅判斷一個字節(jié),如果第二個字節(jié)的值是在0x30到0x39范圍里時,他就是4字節(jié)的漢字了
utf8是變長編碼, 不一定是3字節(jié), 可能是2~3, 當然ASCII字符還是1字節(jié).gbk也是變長編碼, 非ASCII的2字節(jié), ASCII還是1字節(jié).這兩個編碼對于非ASCII字符, 都是多字節(jié)的, 并且多字節(jié)字符每個字節(jié)都是127的, 也就是負數(shù)(最高位是1).另外, PHP里的strlen不是依靠判斷字符串結(jié)尾的, 因為PHP是腳本語言, 它的字符串和C++的string是一樣的, 將存儲的字節(jié)個數(shù)當作字符串長度.另外, PHP里想數(shù)數(shù)有多少個字節(jié)用strlen, 想數(shù)數(shù)有多少個字符, 用mb系列函數(shù), 自己去了解一下.還有些需求, 比如字符串匹配查找之類的, gbk是存在雙字節(jié)匹配問題的, 兩個連續(xù)漢字的中間2個字節(jié)可能被誤認為其他字符, 所以不能用strstr之類的字節(jié)匹配函數(shù)(PHP里是純字節(jié)匹配的, 不關(guān)心), 但utf-8是可以的, 它不會有類似的沖突, 另外最好的做法當然還是用mb系列, 安全可靠, 而且還支持猜編碼功能.
有兩個函數(shù)可以取PHP字符串長度
----------------------------------------------------------------------
strlen — 獲取字符串長度
int strlen ( string $string )
返回給定的字符串 string 的長度。參數(shù) string 需要計算長度的字符串。
返回值 成功則返回字符串 string 的長度;如果 string 為空,則返回 0。
----------------------------------------------------------------------
mb_strlen — 獲取字符串的長度 (PHP 4 = 4.0.6, PHP 5)
mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] )
獲取一個 string 的長度。
參數(shù) str 要檢查長度的字符串。
encoding 參數(shù)為字符編碼。如果省略,則使用內(nèi)部字符編碼。
返回值
返回具有 encoding 編碼的字符串 str 包含的字符數(shù)。 多字節(jié)的字符被計為 1。
如果給定的 encoding 無效則返回 FALSE。
特別要注意的是:
有關(guān)中文的問題。PHP內(nèi)置的字符串長度函數(shù)strlen無法正確處理中文字符串,它得到的只是字符串所占的字節(jié)數(shù)。對于GB2312的中文編碼,strlen得到的值是漢字個數(shù)的2倍,而對于UTF-8編碼的中文,就是3倍的差異了(在UTF-8編碼下,一個漢字占3個字節(jié))。
采用mb_strlen函數(shù)可以較好地解決這個問題。mb_strlen的用法和strlen類似,只不過它有第二個可選參數(shù)用于指定字符編碼。例如得到UTF-8的字符串$str長度,可以用mb_strlen($str,'UTF-8')。如果省略第二個參數(shù),則會使用PHP的內(nèi)部編碼。內(nèi)部編碼可以通過mb_internal_encoding()函數(shù)得到。需要注意的是,mb_strlen并不是PHP核心函數(shù),使用前需要確保在php.ini中加載了php_mbstring.dll,即確保“extension=php_mbstring.dll”這一行存在并且沒有被注釋掉,否則會出現(xiàn)未定義函數(shù)的問題。
我們在前面的php高效寫法提到,盡量不要復制變量,特別是數(shù)組。一般來說,PHP數(shù)組的內(nèi)存利用率只有 1/10, 也就是說,一個在C語言里面100M 內(nèi)存的數(shù)組,在PHP里面就要1G。下面我們可以粗略的估算PHP數(shù)組占用內(nèi)存的大小,首先我們測試1000個元素的整數(shù)占用的內(nèi)存:
[php] view plain copy print?
?php
echo memory_get_usage() , 'br';
$start = memory_get_usage();
$a = Array();
for ($i=0; $i1000; $i++) {
$a[$i] = $i + $i;
}
$mid = memory_get_usage();
echo memory_get_usage() , 'br';
for ($i=1000; $i2000; $i++) {
$a[$i] = $i + $i;
}
$end = memory_get_usage();
echo memory_get_usage() , 'br';
echo 'argv:', ($mid - $start)/1000 ,'bytes' , 'br';echo 'argv:',($end - $mid)/1000 ,'bytes' , 'br';輸出是:
353352
437848
522024
argv:84.416bytes
argv:84.176bytes
大概了解1000
個元素的整數(shù)數(shù)組需要占用 82k 內(nèi)存,平均每個元素占用 84 個字節(jié)。而純 C 中整體只需要 4k(一個整型占用4byte * 1000)。memory_get_usage() 返回的結(jié)果并不是全是被數(shù)組占用了,還要包括一些 PHP運行本身分配的一些結(jié)構(gòu),可能用內(nèi)置函數(shù)生成的數(shù)組更接近真實的空間:
[php] view plain copy print?
?php
$start = memory_get_usage();
$a = array_fill(0, 10000, 1);
$mid = memory_get_usage(); //10k elements array;echo 'argv:', ($mid - $start )/10000,'byte' , 'br';$b = array_fill(0, 10000, 1);
$end = memory_get_usage(); //10k elements array;echo 'argv:', ($end - $mid)/10000 ,'byte' , 'br';得到:
argv:54.5792byte
argv:54.5784byte
從這個結(jié)果來看似乎一個數(shù)組元素大約占用了54個字節(jié)左右。
首先看一下32位機C語言各種類型占用的字節(jié):
[cpp] view plain copy print?
#include "stdafx.h"
//#include stdio.h
int main() {
printf("int:%d\nlong:%d\ndouble:%d\nchar*:%d\nsize_t:%d\n",sizeof(int), sizeof(long),
sizeof(double), sizeof(char *),
sizeof(size_t));
return 0;
}
int:4
long:4
double:8
har*:4
size_t:4
在PHP中都使用long類型來代表數(shù)字,沒有使用int類型大家都明白PHP是一種弱類型的語言,它不會去區(qū)分變量的類型,沒有int float char *之類的概念。
我們看看php在zend里面存儲的變量,PHP中每個變量都有對應(yīng)的 zval, Zval結(jié)構(gòu)體定義在Zend/zend.h里面,其結(jié)構(gòu):
[cpp] view plain copy print?
typedef struct _zval_struct zval;
struct _zval_struct {
/* Variable information */
zvalue_value value; /* The value 1 12字節(jié)(32位機是12,64位機需要8+4+4=16) */zend_uint refcount__gc; /* The number of references to this value (for GC) 4字節(jié) */zend_uchar type; /* The active type 1字節(jié)*/zend_uchar is_ref__gc; /* Whether this value is a reference () 1字節(jié)*/};
PHP使用一種UNION結(jié)構(gòu)來存儲變量的值,即zvalue_value 是一個union,UNION變量所占用的內(nèi)存是由最大成員數(shù)據(jù)空間決定。
[cpp] view plain copy print?
typedef union _zvalue_value {
long lval; /* long value */double dval; /* double value */struct { /* string value */char *val;
int len;
} str;
HashTable *ht; /* hash table value */zend_object_value obj; /*object value */} zvalue_value;
最大成員數(shù)據(jù)空間是struct str,指針占*val用4字節(jié),INT占用4字節(jié),共8字節(jié)。
struct zval占用的空間為8+4+1+1 = 14字節(jié),其實呢,在zval中數(shù)組,字符串和對象還需要另外的存儲結(jié)構(gòu),數(shù)組則是一個 HashTable:
HashTable結(jié)構(gòu)體定義在Zend/zend_hash.h.
[cpp] view plain copy print?
typedef struct _hashtable {
uint nTableSize;//4
uint nTableMask;//4
uint nNumOfElements;//4
ulong nNextFreeElement;//4
Bucket *pInternalPointer; /* Used for element traversal 4*/Bucket *pListHead;//4
Bucket *pListTail;//4
Bucket **arBuckets;//4
dtor_func_t pDestructor;//4
zend_bool persistent;//1
unsigned char nApplyCount;//1
zend_bool bApplyProtection;//1
#if ZEND_DEBUG
int inconsistent;//4
#endif
} HashTable;
HashTable 結(jié)構(gòu)需要 39 個字節(jié),每個數(shù)組元素存儲在 Bucket 結(jié)構(gòu)中:
[cpp] view plain copy print?
typedef struct bucket {
ulong h; /* Used for numeric indexing 4字節(jié) */uint nKeyLength; /* The length of the key (for string keys) 4字節(jié) */void *pData; /* 4字節(jié)*/
void *pDataPtr; /* 4字節(jié)*/
struct bucket *pListNext; /* PHP arrays are ordered. This gives the next element in that order4字節(jié)*/struct bucket *pListLast; /* and this gives the previous element 4字節(jié) */struct bucket *pNext; /* The next element in this (doubly) linked list 4字節(jié)*/struct bucket *pLast; /* The previous element in this (doubly) linked list 4字節(jié)*/char arKey[1]; /* Must be last element 1字節(jié)*/} Bucket;
Bucket
結(jié)構(gòu)需要 33 個字節(jié),鍵長超過四個字節(jié)的部分附加在 Bucket 后面,而元素值很可能是一個 zval 結(jié)構(gòu),另外每個數(shù)組會分配一個由arBuckets 指向的 Bucket 指針數(shù)組, 雖然不能說每增加一個元素就需要一個指針,但是實際情況可能更糟。這么算來一個數(shù)組元素就會占用54 個字節(jié),與上面的估算幾乎一樣。
一個空數(shù)組至少會占用 14(zval) + 39(HashTable) + 33(arBuckets) = 86個字節(jié),作為一個變量應(yīng)該在符號表中有個位置,也是一個數(shù)組元素,因此一個空數(shù)組變量需要 118個字節(jié)來描述和存儲。從空間的角度來看,小型數(shù)組平均代價較大,當然一個腳本中不會充斥數(shù)量很大的小型數(shù)組,可以以較小的空間代價來獲取編程上的快捷。但如果將數(shù)組當作容器來使用就是另一番景象了,實際應(yīng)用經(jīng)常會遇到多維數(shù)組,而且元素居多。比如10k個元素的一維數(shù)組大概消耗540k內(nèi)存,而10kx 10 的二維數(shù)組理論上只需要 6M 左右的空間,但是按照 memory_get_usage的結(jié)果則兩倍于此,[10k,5,2]的三維數(shù)組居然消耗了23M,小型數(shù)組果然是劃不來的。
PHP的字符串都是字節(jié)數(shù)組(或者叫字節(jié)串)。傳言到PHP6 會改成真正的unicode字符串,但目前PHP4、5的字符串都只是字節(jié)串。
$a='你好';
echo $a[0];//這時顯示的是一個字節(jié),而不是字符‘你’
PHP中所有的字符串函數(shù),比如substr、strpos、strcmp等等都注明了“binary-safe二進制安全”,表明這些函數(shù)只是處理字節(jié),而非處理字符。
形成的原因:PHP早期和C一樣,僅僅兼容ASCII碼,而ASCII碼的一個字符等同一個字節(jié)。
所以目前PHP的字符和字節(jié)是基本同義的,處理中文需要multibyte char多字節(jié)字符的MB模塊。
到PHP6才會改變
據(jù)官方資料:
整型數(shù)的字長和平臺有關(guān),盡管通常最大值是大約二十億(32 位有符號)。 PHP 不支持無符號整數(shù)。Integer值的字長可以用常量PHP_INT_SIZE來表示,自 PHP 4.4.0 和 PHP 5.0.5后,最大值可以用常量PHP_INT_MAX來表示。
本文名稱:php數(shù)據(jù)類型占字節(jié)數(shù),類型數(shù)據(jù)占幾個字節(jié)
本文來源:http://chinadenli.net/article19/dsehegh.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設(shè)、ChatGPT、網(wǎng)站建設(shè)、靜態(tài)網(wǎng)站、虛擬主機、定制網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)