性夜影院午夜看片,无码精品久久一区二区三区,婷婷成人丁香五月综合激情,校园春色 qvod,性调教室高h学校

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

Python字典是Python入門學(xué)習(xí)過程中非常重要的一個(gè)知識(shí)點(diǎn),今天給大家推薦的這篇文章就是Python字典的學(xué)習(xí)。深入到Python字典的內(nèi)部實(shí)現(xiàn),對(duì)于大家理解和學(xué)習(xí)Python是很有幫助的。

字典是通過鍵(key)索引的,因此,字典也可視作彼此關(guān)聯(lián)的兩個(gè)數(shù)組。下面我們嘗試向字典中添加3個(gè)鍵/值(key/value)對(duì):

>>> d = {'a': 1, 'b': 2}
>>> d['c'] = 3
>>> d
{'a': 1, 'b': 2, 'c': 3}

這些值可通過如下方法訪問:

>>> d['a']
1
>>> d['b']
2
>>> d['c']
3
>>> d['d']
Traceback (most recent call last):
??File "<stdin>", line 1, in <module>
KeyError: 'd'

由于不存在 'd' 這個(gè)鍵,所以引發(fā)了KeyError異常。

哈希表(Hash tables)

在Python中,字典是通過哈希表實(shí)現(xiàn)的。也就是說(shuō),字典是一個(gè)數(shù)組,而數(shù)組的索引是鍵經(jīng)過哈希函數(shù)處理后得到的。哈希函數(shù)的目的是使鍵均勻地分布在數(shù)組中。由于不同的鍵可能具有相同的哈希值,即可能出現(xiàn)沖突,高級(jí)的哈希函數(shù)能夠使沖突數(shù)目最小化。Python中并不包含這樣高級(jí)的哈希函數(shù),幾個(gè)重要(用于處理字符串和整數(shù))的哈希函數(shù)通常情況下均是常規(guī)的類型:

>>> map(hash, (0, 1, 2, 3))
[0, 1, 2, 3]
>>> map(hash, ("namea", "nameb", "namec", "named"))
[-1658398457, -1658398460, -1658398459, -1658398462]

在以下的篇幅中,我們僅考慮用字符串作為鍵的情況。在Python中,用于處理字符串的哈希函數(shù)是這樣定義的:

arguments: string object
returns: hash
function string_hash:
if hash cached:
return it
set len to string's length
initialize var p pointing to 1st char of string object
set x to value pointed by p left shifted by 7 bits
while len >= 0:
set var x to (1000003 * x) xor value pointed by p
increment pointer p
set x to x xor length of string object
cache x as the hash so we don't need to calculate it again
return x as the hash

如果在Python中運(yùn)行 hash('a') ,后臺(tái)將執(zhí)行 string_hash()函數(shù),然后返回 12416037344 (這里我們假設(shè)采用的是64位的平臺(tái))。

如果用長(zhǎng)度為 x 的數(shù)組存儲(chǔ)鍵/值對(duì),則我們需要用值為 x-1 的掩碼計(jì)算槽(slot,存儲(chǔ)鍵/值對(duì)的單元)在數(shù)組中的索引。這可使計(jì)算索引的過程變得非常迅速。字典結(jié)構(gòu)調(diào)整長(zhǎng)度的機(jī)制(以下會(huì)詳細(xì)介紹)會(huì)使找到空槽的概率很高,也就意味著在多數(shù)情況下只需要進(jìn)行簡(jiǎn)單的計(jì)算。假如字典中所用數(shù)組的長(zhǎng)度是 8 ,那么鍵'a'的索引為:hash('a') & 7 = 0,同理'b'的索引為 3 ,'c'的索引為 2 , 而'z'的索引與'b'相同,也為 3 ,這就出現(xiàn)了沖突。

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

可以看出,Python的哈希函數(shù)在鍵彼此連續(xù)的時(shí)候表現(xiàn)得很理想,這主要是考慮到通常情況下處理的都是這類形式的數(shù)據(jù)。然而,一旦我們添加了鍵'z'就會(huì)出現(xiàn)沖突,因?yàn)檫@個(gè)鍵值并不毗鄰其他鍵,且相距較遠(yuǎn)。

當(dāng)然,我們也可以用索引為鍵的哈希值的鏈表來(lái)存儲(chǔ)鍵/值對(duì),但會(huì)增加查找元素的時(shí)間,時(shí)間復(fù)雜度也不再是 O(1) 了。下一節(jié)將介紹Python的字典解決沖突所采用的方法。

開放尋址法( Open addressing )

開放尋址法是一種用探測(cè)手段處理沖突的方法。在上述鍵'z'沖突的例子中,索引 3 在數(shù)組中已經(jīng)被占用了,因而需要探尋一個(gè)當(dāng)前未被使用的索引。增加和搜尋鍵/值對(duì)需要的時(shí)間均為 O(1)。

搜尋空閑槽用到了一個(gè)二次探測(cè)序列(quadratic probing sequence),其代碼如下:

j = (5*j) + 1 + perturb;
perturb >>= PERTURB_SHIFT;
use j % 2**i as the next table index;

循環(huán)地5*j+1可以快速放大不影響初始索引的哈希值二進(jìn)位的微小差異。變量perturb可使其他二進(jìn)位也不斷變化。

出于好奇,我們來(lái)看一看當(dāng)數(shù)組長(zhǎng)度為 32 時(shí)的探測(cè)序列,j = 3 -> 11 -> 19 -> 29 -> 5 -> 6 -> 16 -> 31 -> 28 -> 13 -> 2…

關(guān)于探測(cè)序列的更多介紹可以參閱dictobject.c的源碼。文件的開頭包含了對(duì)探測(cè)機(jī)理的詳細(xì)介紹。

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

下面我們結(jié)合例子來(lái)看一看 Python 內(nèi)部代碼。

基于C語(yǔ)言的字典結(jié)構(gòu)

以下基于C語(yǔ)言的數(shù)據(jù)結(jié)構(gòu)用于存儲(chǔ)字典的鍵/值對(duì)(也稱作 entry),存儲(chǔ)內(nèi)容有哈希值,鍵和值。PyObject 是 Python 對(duì)象的一個(gè)基類。

typedef struct {
????Py_ssize_t me_hash;
????PyObject *me_key;
????PyObject *me_value
} PyDictEntry;

下面為字典對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)。其中,ma_fill為活動(dòng)槽以及啞槽(dummy slot)的總數(shù)。當(dāng)一個(gè)活動(dòng)槽中的鍵/值對(duì)被刪除后,該槽則被標(biāo)記為啞槽。ma_used為活動(dòng)槽的總數(shù)。ma_mask值為數(shù)組的長(zhǎng)度減 1 ,用于計(jì)算槽的索引。ma_table為數(shù)組本身,ma_smalltable為長(zhǎng)度為 8 的初始數(shù)組。

typedef struct _dictobject PyDictObject;
struct _dictobject {
????PyObject_HEAD
????Py_ssize_t ma_fill;
????Py_ssize_t ma_used;
????Py_ssize_t ma_mask;
????PyDictEntry *ma_table;
????PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
????PyDictEntry ma_smalltable[PyDict_MINSIZE];
};

字典初始化

字典在初次創(chuàng)建時(shí)將調(diào)用PyDict_New()函數(shù)。這里刪掉了源代碼中的部分行,并且將C語(yǔ)言代碼轉(zhuǎn)換成了偽代碼以突出其中的幾個(gè)關(guān)鍵概念。

returns new dictionary object
function PyDict_New:
????allocate new dictionary object
????clear dictionary's table
????set dictionary's number of used slots + dummy slots (ma_fill) to 0
????set dictionary's number of active slots (ma_used) to 0
????set dictionary's mask (ma_value) to dictionary size - 1 = 7
????set dictionary's lookup function to lookdict_string
????return allocated dictionary object

添加項(xiàng)

添加新的鍵/值對(duì)調(diào)用的是PyDict_SetItem()函數(shù)。函數(shù)將使用一個(gè)指針指向字典對(duì)象和鍵/值對(duì)。這一過程中,首先會(huì)檢查鍵是否是字符串,然后計(jì)算哈希值,如果先前已經(jīng)計(jì)算并緩存了鍵的哈希值,則直接使用緩存的值。接著調(diào)用insertdict()函數(shù)添加新鍵/值對(duì)。如果活動(dòng)槽和空槽的總數(shù)超過數(shù)組長(zhǎng)度的2/3,則需調(diào)整數(shù)組的長(zhǎng)度。為什么是 2/3 ?這主要是為了保證探測(cè)序列能夠以足夠快的速度找到空閑槽。后面我們會(huì)介紹調(diào)整長(zhǎng)度的函數(shù)。

arguments: dictionary, key, value
returns: 0 if OK or -1
function PyDict_SetItem:
????if key's hash cached:
????????use hash
????else:
????????calculate hash
????call insertdict with dictionary object, key, hash and value
????if key/value pair added successfully and capacity over 2/3:
????????call dictresize to resize dictionary's table

inserdict() 使用搜尋函數(shù) lookdict_string() 來(lái)查找空閑槽。這跟查找鍵所用的是同一函數(shù)。lookdict_string() 使用哈希值和掩碼計(jì)算槽的索引。如果用“索引 = 哈希值&掩碼”的方法未找到鍵,則會(huì)用調(diào)用先前介紹的循環(huán)方法探測(cè),直至找到一個(gè)空閑槽。第一輪探測(cè),如果未找到匹配的鍵的且探測(cè)過程中遇到過啞槽,則返回一個(gè)啞槽。這可使優(yōu)先選擇先前刪除的槽。

現(xiàn)在我們想添加如下的鍵/值對(duì):{‘a(chǎn)’: 1, ‘b’: 2′, ‘z’: 26, ‘y’: 25, ‘c’: 5, ‘x’: 24},那么將會(huì)發(fā)生如下過程:

分配一個(gè)字典結(jié)構(gòu),內(nèi)部表的尺寸為8。

  • PyDict_SetItem: key = ‘a(chǎn)’, value = 1
    • hash = hash(‘a(chǎn)’) = 12416037344
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 12416037344 & 7 = 0
        • slot 0 is not used so return it
      • init entry at index 0 with key, value and hash
      • ma_used = 1, ma_fill = 1
  • PyDict_SetItem: key = ‘b’, value = 2
    • hash = hash(‘b’) = 12544037731
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 12544037731 & 7 = 3
        • slot 3 is not used so return it
      • init entry at index 3 with key, value and hash
      • ma_used = 2, ma_fill = 2
  • PyDict_SetItem: key = ‘z’, value = 26
    • hash = hash(‘z’) = 15616046971
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 15616046971 & 7 = 3
        • slot 3 is used so probe for a different slot: 5 is free
      • init entry at index 5 with key, value and hash
      • ma_used = 3, ma_fill = 3
  • PyDict_SetItem: key = ‘y’, value = 25
    • hash = hash(‘y’) = 15488046584
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 15488046584 & 7 = 0
        • slot 0 is used so probe for a different slot: 1 is free
      • init entry at index 1 with key, value and hash
      • ma_used = 4, ma_fill = 4
  • PyDict_SetItem: key = ‘c’, value = 3
    • hash = hash(‘c’) = 12672038114
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 12672038114 & 7 = 2
        • slot 2 is free so return it
      • init entry at index 2 with key, value and hash
      • ma_used = 5, ma_fill = 5
  • PyDict_SetItem: key = ‘x’, value = 24
    • hash = hash(‘x’) = 15360046201
    • insertdict
      • lookdict_string
        • slot index = hash & mask = 15360046201 & 7 = 1
        • slot 1 is used so probe for a different slot: 7 is free
      • init entry at index 7 with key, value and hash
      • ma_used = 6, ma_fill = 6

以下就是我們目前所得到的:

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

8個(gè)槽中的6個(gè)已被使用,使用量已經(jīng)超過了總?cè)萘康?/3,因而,dictresize()函數(shù)將會(huì)被調(diào)用,用以分配一個(gè)長(zhǎng)度更大的數(shù)組,同時(shí)將舊表中的條目復(fù)制到新的表中。

在我們這個(gè)例子中,dictresize()函數(shù)被調(diào)用后,數(shù)組長(zhǎng)度調(diào)整后的長(zhǎng)度不小于活動(dòng)槽數(shù)量的 4 倍,即minused = 24 = 4*ma_used。而當(dāng)活動(dòng)槽的數(shù)量非常大(大于50000)時(shí),調(diào)整后長(zhǎng)度應(yīng)不小于活動(dòng)槽數(shù)量的2倍,即2*ma_used。為什么是 4 倍?這主要是為了減少調(diào)用調(diào)整長(zhǎng)度函數(shù)的次數(shù),同時(shí)能顯著提高稀疏度。

新表的長(zhǎng)度應(yīng)大于 24,計(jì)算長(zhǎng)度值時(shí)會(huì)不斷對(duì)當(dāng)前長(zhǎng)度值進(jìn)行升位運(yùn)算,直到大于 24,最終得到的長(zhǎng)度是 32,例如當(dāng)前長(zhǎng)度為 8 ,則計(jì)算過程如8 -> 16 -> 32。

這就是長(zhǎng)度調(diào)整的過程:分配一個(gè)長(zhǎng)度為 32 的新表,然后用新的掩碼,也就是 31 ,將舊表中的條目插入到新表。最終得到的結(jié)果如下:

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

刪除項(xiàng)

刪除條目時(shí)將調(diào)用PyDict_DelItem()函數(shù)。刪除時(shí),首先計(jì)算鍵的哈希值,然后調(diào)用搜詢函數(shù)返回到該條目,最后該槽被標(biāo)記為啞槽。

假設(shè)我們想要從字典中刪除鍵'c',我們最終將得到如下結(jié)果:

Python入門學(xué)習(xí) | 深入 Python 字典并學(xué)習(xí)其內(nèi)部實(shí)現(xiàn)

注意,刪除項(xiàng)目后,即使最終活動(dòng)槽的數(shù)量遠(yuǎn)小于總的數(shù)量也不會(huì)觸發(fā)調(diào)整數(shù)組長(zhǎng)度的動(dòng)作。但是,若刪減后又增加鍵/值對(duì)時(shí),由于調(diào)整長(zhǎng)度的條件判斷基于的是活動(dòng)槽與啞槽的總數(shù)量,因而可能會(huì)縮減數(shù)組長(zhǎng)度。

作者:Python開發(fā)者

來(lái)源:https://mp.weixin.qq.com/s/wjy_1uKI9QJVtXrGOi1Liw

相關(guān)新聞

歷經(jīng)多年發(fā)展,已成為國(guó)內(nèi)好評(píng)如潮的Linux云計(jì)算運(yùn)維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機(jī)構(gòu)!