
1854年,倫敦的Soho 區(qū)爆發(fā)了一場霍亂,朱迪思·薩默斯(Judith Summers)形容那里到處都是“牛棚、動物糞便、屠宰場、煮油的窩點和原始、腐爛的下水道。” 當時,疾病爆發(fā)的原因還不清楚,因為微生物理論還在發(fā)展中,疾病傳播原理還不清楚。 瘴氣理論是當時占主導地位的假說,它提出,包括霍亂和瘟疫在內(nèi)的疾病是通過有機物分解釋放出的惡臭氣體傳播的。
約翰·斯諾(John Snow)是一名擅長麻醉的內(nèi)科醫(yī)生,他設(shè)法追蹤到疾病爆發(fā)的源頭是布羅德街(Broad Street)的一個被附近污水坑污染的水泵。 他的方法是繪制霍亂病例的分布圖,然后將布羅德街水泵附近記錄的感染病例與其他社區(qū)的病例進行比較。 這是微生物理論形成的一個重大進展,幫助說服許多科學家霍亂實際上是通過污染的水而不是有毒的空氣傳播的。
我們還有斯諾的感染病例數(shù)據(jù)以及他們在Soho 區(qū)的位置。在這篇計算性文章中,我們將使用最新的Wolfram語言統(tǒng)計技術(shù)和SpatialPointData功能來研究這些數(shù)據(jù)。
首先,我們將倫敦霍亂的爆發(fā)定義為一個空間點配置:
根據(jù)斯諾的說法,這些數(shù)據(jù)包括該地區(qū)322座建筑(地點),其中包括被感染的個人(即病例)。 此外,數(shù)據(jù)還包括每個地點的病例數(shù)(病例)、每個地點離布羅德街泵的距離(到受污染泵的距離)和到最近的未污染泵的距離(到無污染泵的距離)。該數(shù)據(jù)還包含關(guān)于布羅德街泵或未受污染的泵是離該地點(最近污染泵)最近的信息。數(shù)據(jù)不直接使用經(jīng)緯度坐標,因此泵的坐標必須適當縮放。
現(xiàn)在我們可以以與數(shù)據(jù)兼容的方式確定受污染的布羅德泵和其他未受污染的泵的位置:
布羅德街泵為紅色,未受污染泵為綠色,感染地點在該地區(qū)的地圖上標明:
每個黑點是一個有一個或多個病例的房子,紅色標記是污染泵的位置,綠色標記是未污染泵的位置。
我們可以深入挖掘數(shù)據(jù),以顯示每個地點的病例數(shù)量:
數(shù)據(jù)中還包含以下注釋:
最近的被污染的泵是布爾值,“true”表示被污染的泵是最近的泵,“false”表示最近的泵是未被污染的。
在這個數(shù)據(jù)集中,每個家庭(以一個點表示)至少有一個霍亂病例。 我們可以創(chuàng)建一個直方圖,繪制每個位置的這些病例的數(shù)量,以顯示比例:
將病例計數(shù)與曲線擬合,并繪制它們:
用直方圖可視化擬合:
根據(jù)獲得的分布測試數(shù)據(jù):
數(shù)據(jù)呈負指數(shù)增長。 這可能是因為,假設(shè)平均每個建筑的感染率相同,每個建筑的人口分布大致遵循這個分布。
如前所述,該數(shù)據(jù)集還包括到最近的無污染泵和到布羅德街泵的距離,我們現(xiàn)在將探討這一點。
創(chuàng)建一個未污染和污染泵距離分布圖:
這張圖表顯示,因為有更多的無污染泵,到它們的最大距離更低。 情況是,平均來說,更接近污染泵,距離污染泵的最小值低于距離不污染泵的最小值。
展示病例是如何在空間上分布的:
這個平滑的密度直方圖統(tǒng)計了每個地點的病例,并創(chuàng)建了該地區(qū)病例數(shù)量的“密度圖”。 這向我們展示了最大的“熱點”的形狀是一個細長的橢圓形,大約以布羅德街泵為中心,并與街道呈45度角方向。 此外,幾乎所有密度高的地區(qū)都靠近受污染的泵。 這提供了更多的證據(jù),說明布羅德街泵是導致這些病例的原因。
繪制出距離污染泵和最近的未污染泵的距離分別有多少個點:
請注意,在這些圖中,四分位數(shù)區(qū)間沒有重疊。 奇怪的是,似乎有些案例使用了被污染的布羅德街泵,盡管與未受污染的泵的距離更短。 也許這些道路讓去布羅德街的水泵更容易,或者人們來這里是出于其他原因?
現(xiàn)在我們要設(shè)法找到霍亂爆發(fā)的根源。 首先,我們將確定空間中值。 然后,我們將計算在影響病例中,與未受污染的泵相比,到布羅德街泵的相對距離有多重要。
我們將使用未加權(quán)的數(shù)據(jù)和根據(jù)該地點的案例數(shù)量加權(quán)的數(shù)據(jù)進行大部分分析,并使用不同的空間度量。 很有可能,按病例加權(quán)能更準確地描繪病例熱點。 然而,它不太可能檢測到一個很少發(fā)生的現(xiàn)象。 雖然未經(jīng)加權(quán)的數(shù)據(jù)可以檢測到這樣的現(xiàn)象,但它很容易被異常值扭曲。
我們可以計算數(shù)據(jù)的空間中位數(shù),并按該地點的個案數(shù)目加權(quán):
當我們對數(shù)據(jù)進行加權(quán)時,空間中值將與病例的位置更加相關(guān)。這是因為病例很少的地區(qū)不會對數(shù)據(jù)產(chǎn)生太大的影響,而病例熱點區(qū)將提供更大的影響。
當數(shù)據(jù)未加權(quán)時,空間中值與數(shù)據(jù)的范圍和位置更相關(guān),因為在邊緣只有一個病例的位置與在中心有20個病例的位置具有相同的影響力。
空間中值位置使到每個病例位置的距離最小化。 因此,如果這些病例主要是由單一來源引起的,那么來源很可能是在空間中位數(shù)附近。 這使得確定一個區(qū)域以便更仔細地檢查可能的來源非常有用。 注意:除非另有說明,默認的距離函數(shù)是EuclideanDistance(或地理空間數(shù)據(jù)的GeoDistance)。
找到未加權(quán)的空間中值:
繪制空間中位數(shù)與病例的位置(使用 EuclideanDistance):
讓我們使用不同的距離函數(shù)來計算空間中值:
根據(jù)泵的位置和病例,使用不同的距離函數(shù)繪制未加權(quán)空間中值的位置(注:一些空間中值位置重疊):
空間中值,無論是加權(quán)的、未加權(quán)的或具有不同距離函數(shù)的,都在布羅德街泵和其他泵的位置附近(見前面的可視化)。 這告訴我們,在一個位置的情況的數(shù)量是圍繞空間中值近似旋轉(zhuǎn)對稱的。 否則,未加權(quán)的空間中值將與空間中值大不相同。
此外,查看下面的可視化顯示,更多病例位置似乎更靠近數(shù)據(jù)中心。 這提供了一些軼事證據(jù),說明只有一個數(shù)據(jù)源。
在該位置顯示一個平滑的密度直方圖的數(shù)據(jù)加權(quán)的病例數(shù)量:
顯示病例位置的平滑密度直方圖,忽略病例數(shù):
接下來,我們將計算在布羅德街泵附近而不是另一個泵附近對某個地點的病例數(shù)量有多大影響。 這可能為布羅德街泵的責任提供了額外的證據(jù)。
我們計算一個度量,這僅僅是距離未污染泵與距離污染泵之間的比率。 我們預計,隨著病例數(shù)量的增加,至少在某一點上,該比率的值也應該增加,因為當某一點更接近布羅德街泵時,該比率將增加:
我們可以創(chuàng)建一個病例和比率的BoxWhiskerChart,看看它是否顯示了類似的現(xiàn)象,或者它是否是這種可視化方法的獨特之處。
顯示每個病例數(shù)量的比率的box-whisker圖:
病例和比率似乎一起上升,直到5個病例,雖然中位數(shù)的上升仍然是線性的,但第75個百分位數(shù)似乎呈指數(shù)增長,這很有趣。 此外,當出現(xiàn)5例時,最低值和第25百分位繼續(xù)上升。 這表明,我們之前的假設(shè),低值可能是潛在的異常值,可能是正確的。 然而,我們?nèi)匀粵]有證據(jù)證明這一點,很可能有一些次要因素影響病例數(shù)量。
接下來,我們將測試比率和病例是否相互獨立:
缺乏獨立性提供了另一個證據(jù),表明這個比率,以及到布羅德街泵和其他泵的距離,與病例有關(guān)。 在所有這些可視化和數(shù)據(jù)分析之間,我們可以說布羅德街的泵似乎更有可能與霍亂爆發(fā)有關(guān),而其他泵對霍亂爆發(fā)的影響明顯較小。
斯諾的地圖說服了圣詹姆斯教區(qū)的守衛(wèi)委員會,也就是水泵掉落的教區(qū),把水泵的把手取了下來。 雖然對這種策略的整體有效性仍然存在疑問,因為霍亂爆發(fā)已經(jīng)在下降,但斯諾發(fā)現(xiàn)的疾病傳播的影響遠遠超出了1854年霍亂爆發(fā)。
事實上,斯諾可以被認為是“流行病學之父”,因為正如美國疾病控制和預防中心(CDC)在其網(wǎng)站上所說的那樣,“他的工作闡明了從描述性流行病學到假設(shè)生成到假設(shè)檢驗(分析流行病學)到應用....的經(jīng)典順序”。
今天,如果您參觀令人討厭的布羅德街水泵所在的地方,您會發(fā)現(xiàn)對斯諾作品的雙重紀念:一個水泵和他自己的“酒吧”——約翰·斯諾酒吧(這要感謝谷歌街景)。
致謝
我們要感謝Gosia Konwerska (Wolfram Research)提供的數(shù)據(jù)并幫助改進文章,感謝Jon McLoone (Wolfram Research)幫助將數(shù)據(jù)轉(zhuǎn)化為實際地理位置,并提供了關(guān)于John Snow對流行病學貢獻的歷史和當代背景。
使用Mathematica 12.3或Wolfram|獲得對最新的Wolfram語言功能的完全訪問。
京ICP備09015132號-996 | 違法和不良信息舉報電話:4006561155
© Copyright 2000-2026 北京哲想軟件有限公司版權(quán)所有 | 地址:北京市海淀區(qū)西三環(huán)北路50號豪柏大廈C2座11層1105室
北京哲想軟件集團旗下網(wǎng)站:哲想軟件 | 哲想動畫