網站首頁 學習教育 IT科技 金融知識 旅遊規劃 生活小知識 家鄉美食 養生小知識 健身運動 美容百科 遊戲知識 綜合知識
當前位置:趣知科普吧 > 學習教育 > 

Python實現城市公交網絡分析與可視化

欄目: 學習教育 / 發佈於: / 人氣:1.45W

<link rel="stylesheet" href="https://js.how234.com/c359fc24b2/da53fe39b117d0455d01c0b110681d4466/da5ee921b51c/da42d322a20a.css" type="text/css" /><link rel="stylesheet" href="https://js.how234.com/c359fc24b2/da53fe39b117d0455d01c0b110681d4466/da5ee921b51c/da42c425b502dd685f0fcdad1b74.css" type="text/css" /><script type="text/javascript" src="https://js.how234.com/third-party/SyntaxHighlighter/shCore.js"></script><style>pre{overflow-x: auto}</style>

一、數據檢視和預處理

數據獲取自高德地圖API,包含了天津市公交線路和站點名稱及其經緯度數據。

import pandas as pddf = pd.read_excel('site_information.xlsx')df.head()

Python實現城市公交網絡分析與可視化

字段說明:

線路名稱:公交線路的名稱

上下行:0表示上行;1表示下行

站序號:公交線路上行或下行依次經過站的序號

站名稱:站點名稱

經度(分):站點的經度

緯度(分):站點的緯度

數據字段少,結構也比較簡單,下面來充分了解我們的數據和進行預處理。

Python實現城市公交網絡分析與可視化 第2張

總的數據有 30396 條,站名稱缺失了 5 條,緯度(分)缺失了 1 條,經度(分)缺失了 38 條,爲了處理方便,直接把有缺失值的行刪除。

Python實現城市公交網絡分析與可視化 第3張

經緯度數據是7031.982、2348.1016這樣的,需要將其轉換爲以度爲單位。

df2 = df1.copy()df2['經度(分)'] = df1['經度(分)'].apply(float) / 60df2['緯度(分)'] = df1['緯度(分)'].apply(float) / 60df2.head()

Python實現城市公交網絡分析與可視化 第4張

處理後的數據裏,共有 618 條公交線路,4851個站點數據。

Python實現城市公交網絡分析與可視化 第5張

重新儲存爲處理後數據

df2.to_excel("處理後數據.xlsx", index=False)

二、數據分析

分析天津市公交站點的分佈情況

# -*- coding: UTF-8 -*-"""import pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplimport randomdf = pd.read_excel("處理後數據.xlsx")x_data = df['經度(分)']y_data = df['緯度(分)']colors = ['#FF0000', '#0000CD', '#00BFFF', '#008000', '#FF1493', '#FFD700', '#FF4500', '#00FA9A', '#191970', '#9932CC']colors = [random.choice(colors) for i in range(len(x_data))]mpl.rcParams['font.family'] = 'SimHei'plt.style.use('ggplot')# 設定大小plt.figure(figsize=(12, 6), dpi=200)# 繪製散點圖  經度  緯度  傳進去   設定 顏色  點的大小plt.scatter(x_data, y_data, marker="o", s=9., c=colors)# 添加描述資訊 x軸 y軸 標題plt.xlabel("經度")plt.ylabel("緯度")plt.title("天津市公交站點分佈情況")plt.savefig('經緯度散點圖.png')plt.show()

結果如下:

Python實現城市公交網絡分析與可視化 第6張

透過 matplotlib 繪製散點圖可視化天津市公交站點的分佈情況,容易看出天津市的公交熱點分佈區域。爲了能更形象地分析公交線路網絡,我們可以將數據可視化在實際地圖上,利用 Pyecharts 的BMap。

# -*- coding: UTF-8 -*-"""import pandas as pdfrom pyecharts.charts import BMapfrom pyecharts import options as optsfrom pyecharts.globals import CurrentConfig# 引用本地js資源渲染CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'df = pd.read_excel('處理後數據.xlsx', encoding='utf-8')df.drop_duplicates(subset='站名稱', inplace=True)longitude = list(df['經度(分)'])latitude = list(df['緯度(分)'])datas = []a = []for i, j in zip(longitude, latitude):    a.append([i, j])datas.append(a)print(datas)BAIDU_MAP_AK = "改成你的百度地圖AK"c = (    BMap(init_opts=opts.InitOpts(width="1200px", height="800px"))    .add_schema(        baidu_ak=BAIDU_MAP_AK,     # 申請的BAIDU_MAP_AK        center=[117.20, 39.13],    # 天津市經緯度中心        zoom=10,        is_roam=True,    )    .add(        "",        type_="lines",        is_polyline=True,        data_pair=datas,        linestyle_opts=opts.LineStyleOpts(opacity=0.2, width=0.5, color='red'),        # 如果不是最新版本的話可以註釋下面的參數(效果差距不大)        progressive=200,        progressive_threshold=500,    ))c.render('公交網絡地圖.html')

結果如下:

Python實現城市公交網絡分析與可視化 第7張

在地圖上可以看到,和平區、南開區公交線路網絡密集,交通便利。

公交線路網絡中 i 節點代表第 i 條線路,其中節點 i 的度定義爲與線路 i 可以經過換乘能夠到達的線路的數目,線路網絡的度大小反映了該條公交線路與其他線路的連通程度,構建算法分析公交線路網絡度的分佈。

# -*- coding: UTF-8 -*-"""import xlrdimport matplotlib.pyplot as pltimport pandas as pdimport matplotlib as mpldf = pd.read_excel("site_information.xlsx")# 用pandas的操作去重   得到每條線路的名稱loc = df['線路名稱'].unique()# 得到每一條線路名稱的列表line_list = list(loc)print(line_list)# 開啟Excel表格data = xlrd.open_workbook("site_information.xlsx")# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中# 獲取特定Sheet  索引爲0  也就是第一個表table = data.sheets()[0]  # 從零開始# 每條線路對應有哪些站點  字典推導式site_dic = {k: [] for k in line_list}site_list = []for i in range(1, table.nrows):    # 每一行的數據   返回的是一個列表    x = table.row_values(i)    if x[1] == "0":        # 上行   站點數據  每條線路對應有哪些站點 添加進列表        site_dic[x[0]].append(x[3])        site_list.append(x[3])    else:        continue# print(len(site_dic))   # 618條線路# print(len(site_list))  # 15248條站點數據print(f"公交網絡共有 {len(line_list)} 條線路")   # 618條線路# 先初始化一個統計每個節點的度的列表  與線路名稱列表裏的索引一一對應node_count = [m * 0 for m in range(len(line_list))]# 以每條線路爲一個節點  線路名稱爲鍵      值爲一個列表  裏面包含每條路線上行經過的所有站點sites = [site for site in site_dic.values()]# print(sites)for j in range(len(sites)):  # 類似冒泡法排序  比較多少趟    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界        if len(sites[j]) > len(sites[k + 1]):            for x in sites[j]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束        else:            for x in sites[k + 1]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束# print(node_count)# 節點編號 與 節點的度數索引對應node_number = [y for y in range(len(node_count))]# 線性網絡度的最大值   175print(f"線路網絡的度的最大值爲:{max(node_count)}")print(f"線路網絡的度的最小值爲:{min(node_count)}")print(f"線路網絡的度的平均值爲:{sum(node_count) / len(node_count)}")# 設定大小  圖的像素# 設定字型   matplotlib 不支援顯示中文  自己本地設定plt.figure(figsize=(10, 6), dpi=150)mpl.rcParams['font.family'] = 'SimHei'# 繪製每個節點度的分佈plt.bar(node_number, node_count, color="purple")# 添加描述資訊plt.xlabel("節點編號n")plt.ylabel("節點的度數K")plt.title("線路網絡中各節點的度的大小分佈", fontsize=15)plt.savefig("線路網絡中各節點的度的大小.png")plt.show()

結果如下:

公交網絡共有 618 條線路

線路網絡的度的最大值爲:175

線路網絡的度的最小值爲:0

線路網絡的度的平均值爲:55.41423948220065

Python實現城市公交網絡分析與可視化 第8張

import xlrdimport matplotlib.pyplot as pltimport pandas as pdimport matplotlib as mplimport collectionsdf = pd.read_excel("site_information.xlsx")# 用pandas的操作去重   得到每條線路的名稱loc = df['線路名稱'].unique()# 得到每一條線路名稱的列表line_list = list(loc)print(line_list)# 開啟Excel表格data = xlrd.open_workbook("site_information.xlsx")# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中# 獲取特定Sheet  索引爲0  也就是第一個表table = data.sheets()[0]  # 從零開始# 每條線路對應有哪些站點  字典推導式site_dic = {k: [] for k in line_list}site_list = []for i in range(1, table.nrows):    # 每一行的數據   返回的是一個列表    x = table.row_values(i)    if x[1] == "0":        # 上行   站點數據  每條線路對應有哪些站點 添加進列表        site_dic[x[0]].append(x[3])        site_list.append(x[3])    else:        continue# print(len(site_dic))   # 618條線路# print(len(site_list))  # 15248條站點數據# 先初始化一個統計每個節點的度的列表  與線路名稱列表裏的索引一一對應node_count = [m * 0 for m in range(len(line_list))]# 以每條線路爲一個節點  線路名稱爲鍵      值爲一個列表  裏面包含每條路線上行經過的所有站點sites = [site for site in site_dic.values()]# print(sites)for j in range(len(sites)):  # 類似冒泡法排序  比較多少趟    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界        if len(sites[j]) > len(sites[k + 1]):            for x in sites[j]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束        else:            for x in sites[k + 1]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束# print(node_count)# 節點編號 與 節點的度數索引對應node_number = [y for y in range(len(node_count))]# 線性網絡度的最大值   175# print(max(node_count))# 設定大小  圖的像素# 設定字型   matplotlib 不支援顯示中文  自己本地設定plt.figure(figsize=(10, 6), dpi=150)mpl.rcParams['font.family'] = 'SimHei'# 分析節點的度K的概率分佈# 統計節點的度爲K的 分別有多少個node_count = collections.Counter(node_count)node_count = node_count.most_common()# 點node_dic = {_k: _v for _k, _v in node_count}# 按鍵從小到大排序   得到一個列表  節點的度sort_node = sorted(node_dic)# 按順序得到鍵對應的值   即有相同節點的度的個數sort_num = [node_dic[q] for q in sort_node]# 概率分佈中度平均值  總的度數加起來  / 個數# print(sum(sort_node)/len(sort_node))# 概率分佈中最大的度值   也就個數最多那個print(f"概率分佈中概率最大的度值爲:{max(sort_num)}")probability = [s1 / sum(sort_num) for s1 in sort_num]   # 概率分佈print(probability)# 天津市公交線路節點概率分佈圖像plt.bar(sort_node, probability, color="red")# 添加描述資訊plt.xlabel("節點的度K")plt.ylabel("節點度爲K的概率P(K)")plt.title("線路網絡中節點度的概率分佈", fontsize=15)plt.savefig("線路網絡中節點度的概率分佈.png")plt.show()

結果如下:

概率分佈中概率最大的度值爲:16

Python實現城市公交網絡分析與可視化 第9張

天津市公交線路網絡的度分佈如上圖所示,本文收集的天津市線路網絡共有 618 條線路組成,線路網絡的度的最大值爲175。概率分佈中概率最大的度值爲16,度平均值爲55.41,表明天津市公交網絡提供的換乘機會較多,使得可達性較高。其中概率較大的度值大多集中在 7~26 之間。使得節點強度分佈相對來說不夠均勻,造成天津市很多路段公交線路較少,少數路段經過線路過於密集,造成資源的浪費。

Python實現城市公交網絡分析與可視化 第10張

Python實現城市公交網絡分析與可視化 第11張

聚類係數是研究節點鄰居之間的連接緊密程度,因此不必考慮邊的方向。對於有向圖,將其當成無向圖來處理。網絡聚類係數大,表明網絡中節點與其附近節點之間的連接緊密度程度高,即與實際站點之間的公交線路連接密集。計算得到天津公交複雜網絡的聚類係數爲0.091,相對其他城市較低。

根據公式:

Python實現城市公交網絡分析與可視化 第12張

同規模的隨機網絡聚集係數約爲0.00044,進一步體現了網絡的小世界特性。

import xlrdimport matplotlib.pyplot as pltimport pandas as pdimport matplotlib as mpl# 讀取數據df = pd.read_excel("site_information.xlsx")# 用pandas的操作去重   得到每條線路的名稱loc = df['線路名稱'].drop_duplicates()# 得到每一條線路名稱的列表  按照Excel表裏以次下去的順序line_list = list(loc)# print(line_list)# 開啟Excel表格data = xlrd.open_workbook("site_information.xlsx")# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在內存中# 獲取特定Sheet  索引爲0  也就是第一個表table = data.sheets()[0]  # 從零開始# 每條線路對應有哪些站點  字典推導式site_dic = {k: [] for k in line_list}site_list = []for i in range(1, table.nrows):    # 每一行的數據   返回的是一個列表    x = table.row_values(i)    if x[1] == "0":        # 只取上行站點數據  每條線路對應有哪些站點 添加進列表        site_dic[x[0]].append(x[3])        site_list.append(x[3])    else:        continue# print(len(site_dic))   # 618條線路# print(len(site_list))  # 15248條站點數據# 先初始化一個統計每個節點的度的列表  與線路名稱列表裏的索引一一對應node_count = [m * 0 for m in range(len(line_list))]# 以每條線路爲一個節點  線路名稱爲鍵      值爲一個列表  裏面包含每條路線上行經過的所有站點sites = [site for site in site_dic.values()]# print(sites)# 統計各節點的度for j in range(len(sites) - 1):  # 類似冒泡法排序  比較多少趟    for k in range(j, len(sites) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界        if len(sites[j]) > len(sites[k + 1]):            for x in sites[j]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束        else:            for x in sites[k + 1]:                if x in sites[j] and x in sites[k + 1]:   # 只要這兩條線路有公共站點  節點度數加1                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1                    break   # 兩條線路對應在列表索引的值加1   這兩條線的比較結束# 找到該節點的鄰居節點  鄰居節點間實際的邊數Ei = []# 對每條線路進行找鄰接節點  並統計其鄰接節點點實際的邊數for a in range(len(sites)):    neighbor = []    if node_count[a] == 0:        Ei.append(0)        continue    if node_count[a] == 1:        Ei.append(0)        continue    for b in range(len(sites)):        if a == b:    # 自身  不比            continue        if len(sites[a]) > len(sites[b]):   # 從站點多的線路里選取站點   看是否有公共站點            for x in sites[a]:                if x in sites[a] and x in sites[b]:  # 找到鄰居節點                    neighbor.append(sites[b])                    break        else:            for x in sites[b]:                if x in sites[a] and x in sites[b]:  # 找到鄰居節點                    neighbor.append(sites[b])                    break    # 在鄰居節點中判斷這些節點的實際邊數  又類似前面的方法  判斷兩兩是否相連    count = 0    for c in range(len(neighbor) - 1):        for d in range(c, len(neighbor) - 1):  # 每趟比較後  往後推一個  直到比較完  和防止越界            try:                if len(sites[c]) > len(sites[d + 1]):                    for y in sites[c]:                        if y in sites[c] and y in sites[d + 1]:  # 鄰居節點這兩個也相連                            count += 1                            break                        else:                            continue                else:                    for y in sites[d + 1]:                        if y in sites[c] and y in sites[d + 1]:  # 鄰居節點這兩個也相連                            count += 1                            break                        else:                            continue            except IndexError:                break    Ei.append(count)# 每個節點的鄰居節點間實際相連的邊數# print(Ei)# 節點編號 與 節點的度數索引對應node_number = [y for y in range(len(node_count))]# 設定字型   matplotlib 不支援顯示中文  自己本地設定mpl.rcParams['font.family'] = 'SimHei'# 設定大小  圖的像素plt.figure(figsize=(10, 6), dpi=150)# 公交線路網絡的聚類係數分佈圖像   相鄰節點的連通程度Ci = []for m in range(len(node_number)):    if node_count[m] == 0:        Ci.append(0)    elif node_count[m] == 1:        Ci.append(0)    else:  # 2 * 該節點鄰居節點實際連接邊數 / 最大邊數        Ci.append(2 * Ei[m] / (node_count[m] * (node_count[m] - 1)))# 各節點鄰居節點的連通程度 計算平均聚類係數print("天津市公交線路網絡平均聚類係數爲:{:.4f}".format(sum(Ci) / len(Ci)))plt.bar(node_number, Ci, color="blue")# 添加描述資訊plt.xlabel("節點編號n")plt.ylabel("節點的聚類係數")plt.title("線路網絡中各節點的聚類係數分佈", fontsize=15)plt.savefig("聚類係數分佈.png")plt.show()

結果如下:

天津市公交線路網絡平均聚類係數爲:0.0906

Python實現城市公交網絡分析與可視化 第13張