手把手教你用Python进行城市公交网络分析与可视化

Karen110
• 阅读 1225

一、数据查看和预处理


数据获取自高德地图API,包含了天津市公交线路和站点名称及其经纬度数据

import pandas as pd  

df = pd.read_excel('site_information.xlsx')  
df.head()  

手把手教你用Python进行城市公交网络分析与可视化

字段说明:

  • 线路名称:公交线路的名称

  • 上下行:0表示上行;1表示下行

  • 站序号:公交线路上行或下行依次经过站的序号

  • 站名称:站点名称

  • 经度(分):站点的经度

  • 纬度(分):站点的纬度

数据字段少,结构也比较简单,下面来充分了解我们的数据和进行预处理。手把手教你用Python进行城市公交网络分析与可视化总的数据有 30396 条,站名称缺失了 5 条,纬度(分)缺失了 1 条,经度(分)缺失了 38 条,为了处理方便,直接把有缺失值的行删除。手把手教你用Python进行城市公交网络分析与可视化

经纬度数据是7031.982、2348.1016这样的,需要将其转换为以度为单位。

df2 = df1.copy()  
df2['经度(分)'] = df1['经度(分)'].apply(float) / 60  
df2['纬度(分)'] = df1['纬度(分)'].apply(float) / 60  
df2.head()  

手把手教你用Python进行城市公交网络分析与可视化

处理后的数据里,共有 618 条公交线路,4851个站点数据。

手把手教你用Python进行城市公交网络分析与可视化

重新保存为处理后数据

df2.to_excel("处理后数据.xlsx", index=False)  

二、数据分析

分析天津市公交站点的分布情况

# -*- coding: UTF-8 -*-  
"""  
@Author  :叶庭云  
@公众号  :修炼Python  
@CSDN    :https://yetingyun.blog.csdn.net/  
"""  
import pandas as pd  
import matplotlib.pyplot as plt  
import matplotlib as mpl  
import random  

df = pd.read_excel("处理后数据.xlsx")  
x_data = df['经度(分)']  
y_data = df['纬度(分)']  
colors = ['#FF0000', '#0000CD', '#00BFFF', '#008000', '#FF1493', '#FFD700', '#FF4500', '#00FA9A', '#191970', '#9932CC']  
colors = [random.choice(colors) for i in range(len(x_data))]  
mpl.rcParams['font.family'] = 'SimHei'  
plt.style.use('ggplot')  
# 设置大小  
plt.figure(figsize=(12, 6), dpi=200)  
# 绘制散点图  经度  纬度  传进去   设置 颜色  点的大小  
plt.scatter(x_data, y_data, marker="o", s=9., c=colors)  

# 添加描述信息 x轴 y轴 标题  
plt.xlabel("经度")  
plt.ylabel("纬度")  
plt.title("天津市公交站点分布情况")  
plt.savefig('经纬度散点图.png')  
plt.show()  

结果如下:手把手教你用Python进行城市公交网络分析与可视化

通过 matplotlib 绘制散点图可视化天津市公交站点的分布情况,容易看出天津市的公交热点分布区域。为了能更形象地分析公交线路网络,我们还可以将数据可视化在实际地图上,利用 Pyecharts 的BMap

# -*- coding: UTF-8 -*-  
"""  
@Author  :叶庭云  
@公众号  :修炼Python  
@CSDN    :https://yetingyun.blog.csdn.net/  
"""  
import pandas as pd  
from pyecharts.charts import BMap  
from pyecharts import options as opts  
from pyecharts.globals import CurrentConfig  

# 引用本地js资源渲染  
CurrentConfig.ONLINE_HOST = 'D:/python/pyecharts-assets-master/assets/'  

df = pd.read_excel('处理后数据.xlsx', encoding='utf-8')  
df.drop_duplicates(subset='站名称', inplace=True)  
longitude = list(df['经度(分)'])  
latitude = list(df['纬度(分)'])  
datas = []  
a = []  
for i, j in zip(longitude, latitude):  
    a.append([i, j])  

datas.append(a)  
print(datas)  

BAIDU_MAP_AK = "改成你的百度地图AK"  

c = (  
    BMap(init_opts=opts.InitOpts(width="1200px", height="800px"))  
    .add_schema(  
        baidu_ak=BAIDU_MAP_AK,     # 申请的BAIDU_MAP_AK  
        center=[117.20, 39.13],    # 天津市经纬度中心  
        zoom=10,  
        is_roam=True,  
    )  
    .add(  
        "",  
        type_="lines",  
        is_polyline=True,  
        data_pair=datas,  
        linestyle_opts=opts.LineStyleOpts(opacity=0.2, width=0.5, color='red'),  
        # 如果不是最新版本的话可以注释下面的参数(效果差距不大)  
        progressive=200,  
        progressive_threshold=500,  
    )  
)  

c.render('公交网络地图.html')  

结果如下:

在实际地图上可以看到,和平区、南开区公交线路网络密集,交通便利。

公交线路网络中 i 节点代表第 i 条线路,其中节点 i 的度定义为与线路 i 可以经过换乘能够到达的线路的数目,线路网络中度的大小反映了该条公交线路与其他线路的连通程度,构建算法分析公交线路网络中节点度的分布。

# -*- coding: UTF-8 -*-  
"""  
@Author  :叶庭云  
@公众号  :修炼Python  
@CSDN    :https://yetingyun.blog.csdn.net/  
"""  
import xlrd  
import matplotlib.pyplot as plt  
import pandas as pd  
import matplotlib as mpl  


df = pd.read_excel("site_information.xlsx")  
# 用pandas的操作去重   得到每条线路的名称  
loc = df['线路名称'].unique()  
# 得到每一条线路名称的列表  
line_list = list(loc)  
print(line_list)  

# 打开Excel表格  
data = xlrd.open_workbook("site_information.xlsx")  
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在内存中  
# 获取特定Sheet  索引为0  也就是第一个表  
table = data.sheets()[0]  # 从零开始  
# 每条线路对应有哪些站点  字典推导式  
site_dic = {k: [] for k in line_list}  
site_list = []  
for i in range(1, table.nrows):  
    # 每一行的数据   返回的是一个列表  
    x = table.row_values(i)  
    if x[1] == "0":  
        # 上行   站点数据  每条线路对应有哪些站点 添加进列表  
        site_dic[x[0]].append(x[3])  
        site_list.append(x[3])  
    else:  
        continue  
# print(len(site_dic))   # 618条线路  
# print(len(site_list))  # 15248条站点数据  
print(f"公交网络共有 {len(line_list)} 条线路")   # 618条线路  

# 先初始化一个统计每个节点的度的列表  与线路名称列表里的索引一一对应  
node_count = [m * 0 for m in range(len(line_list))]  
# 以每条线路为一个节点  线路名称为键      值为一个列表  里面包含每条路线上行经过的所有站点  
sites = [site for site in site_dic.values()]  
# print(sites)  
for j in range(len(sites)):  # 类似冒泡法排序  比较多少趟  
    for k in range(j, len(sites) - 1):  # 每趟比较后  往后推一个  直到比较完  和防止越界  
        if len(sites[j]) > len(sites[k + 1]):  
            for x in sites[j]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  
        else:  
            for x in sites[k + 1]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  
# print(node_count)  
# 节点编号 与 节点的度数索引对应  
node_number = [y for y in range(len(node_count))]  
# 线性网络度的最大值   175  
print(f"线路网络的度的最大值为:{max(node_count)}")  
print(f"线路网络的度的最小值为:{min(node_count)}")  
print(f"线路网络的度的平均值为:{sum(node_count) / len(node_count)}")  
# 设置大小  图的像素  
# 设置字体   matplotlib 不支持显示中文  自己本地设置  
plt.figure(figsize=(10, 6), dpi=150)  
mpl.rcParams['font.family'] = 'SimHei'  

# 绘制每个节点度的分布  
plt.bar(node_number, node_count, color="purple")  

# 添加描述信息  
plt.xlabel("节点编号n")  
plt.ylabel("节点的度数K")  
plt.title("线路网络中各节点的度的大小分布", fontsize=15)  
plt.savefig("线路网络中各节点的度的大小.png")  
plt.show()  

结果如下:

公交网络共有 618 条线路  
线路网络的度的最大值为:175  
线路网络的度的最小值为:0  
线路网络的度的平均值为:55.41423948220065  

手把手教你用Python进行城市公交网络分析与可视化

import xlrd  
import matplotlib.pyplot as plt  
import pandas as pd  
import matplotlib as mpl  
import collections  

df = pd.read_excel("site_information.xlsx")  
# 用pandas的操作去重   得到每条线路的名称  
loc = df['线路名称'].unique()  
# 得到每一条线路名称的列表  
line_list = list(loc)  
print(line_list)  

# 打开Excel表格  
data = xlrd.open_workbook("site_information.xlsx")  
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在内存中  
# 获取特定Sheet  索引为0  也就是第一个表  
table = data.sheets()[0]  # 从零开始  
# 每条线路对应有哪些站点  字典推导式  
site_dic = {k: [] for k in line_list}  
site_list = []  
for i in range(1, table.nrows):  
    # 每一行的数据   返回的是一个列表  
    x = table.row_values(i)  
    if x[1] == "0":  
        # 上行   站点数据  每条线路对应有哪些站点 添加进列表  
        site_dic[x[0]].append(x[3])  
        site_list.append(x[3])  
    else:  
        continue  
# print(len(site_dic))   # 618条线路  
# print(len(site_list))  # 15248条站点数据  
# 先初始化一个统计每个节点的度的列表  与线路名称列表里的索引一一对应  
node_count = [m * 0 for m in range(len(line_list))]  
# 以每条线路为一个节点  线路名称为键      值为一个列表  里面包含每条路线上行经过的所有站点  
sites = [site for site in site_dic.values()]  
# print(sites)  
for j in range(len(sites)):  # 类似冒泡法排序  比较多少趟  
    for k in range(j, len(sites) - 1):  # 每趟比较后  往后推一个  直到比较完  和防止越界  
        if len(sites[j]) > len(sites[k + 1]):  
            for x in sites[j]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  
        else:  
            for x in sites[k + 1]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  
# print(node_count)  
# 节点编号 与 节点的度数索引对应  
node_number = [y for y in range(len(node_count))]  
# 线性网络度的最大值   175  
# print(max(node_count))  

# 设置大小  图的像素  
# 设置字体   matplotlib 不支持显示中文  自己本地设置  
plt.figure(figsize=(10, 6), dpi=150)  
mpl.rcParams['font.family'] = 'SimHei'  

# 分析节点的度K的概率分布  
# 统计节点的度为K的 分别有多少个  
node_count = collections.Counter(node_count)  
node_count = node_count.most_common()  
# 点  
node_dic = {_k: _v for _k, _v in node_count}  
# 按键从小到大排序   得到一个列表  节点的度  
sort_node = sorted(node_dic)  
# 按顺序得到键对应的值   即有相同节点的度的个数  
sort_num = [node_dic[q] for q in sort_node]  
# 概率分布中度平均值  总的度数加起来  / 个数  
# print(sum(sort_node)/len(sort_node))  
# 概率分布中最大的度值   也就个数最多那个  
print(f"概率分布中概率最大的度值为:{max(sort_num)}")  

probability = [s1 / sum(sort_num) for s1 in sort_num]   # 概率分布  
print(probability)  

# 天津市公交线路节点概率分布图像  
plt.bar(sort_node, probability, color="red")  
# 添加描述信息  
plt.xlabel("节点的度K")  
plt.ylabel("节点度为K的概率P(K)")  
plt.title("线路网络中节点度的概率分布", fontsize=15)  

plt.savefig("线路网络中节点度的概率分布.png")  
plt.show()  

结果如下:

概率分布中概率最大的度值为:16  

手把手教你用Python进行城市公交网络分析与可视化天津市公交线路网络的度分布如上图所示,本文收集的天津市线路网络共有 618 条线路组成,线路网络的度的最大值为175。概率分布中概率最大的度值为16度平均值为55.41,表明天津市公交网络提供的换乘机会较多,使得可达性较高。其中概率较大的度值大多集中在 7~26 之间,使得节点强度分布相对来说不够均匀,造成天津市很多路段公交线路较少,少数路段经过线路过于密集,造成资源的浪费。

手把手教你用Python进行城市公交网络分析与可视化)手把手教你用Python进行城市公交网络分析与可视化聚类系数是研究节点邻居之间的连接紧密程度,因此不必考虑边的方向。对于有向图,将其当成无向图来处理。网络聚类系数大,表明网络中节点与其附近节点之间的连接紧密度程度高,即与实际站点之间的公交线路连接密集。计算得到天津公交复杂网络的聚类系数为0.091,相对其他城市较低。

根据公式:手把手教你用Python进行城市公交网络分析与可视化同规模的随机网络聚集系数约为0.00044,进一步体现了网络的小世界特性

Python代码如下:

import xlrd  
import matplotlib.pyplot as plt  
import pandas as pd  
import matplotlib as mpl  


# 读取数据  
df = pd.read_excel("site_information.xlsx")  
# 用pandas的操作去重   得到每条线路的名称  
loc = df['线路名称'].drop_duplicates()  
# 得到每一条线路名称的列表  按照Excel表里以次下去的顺序  
line_list = list(loc)  
# print(line_list)  

# 打开Excel表格  
data = xlrd.open_workbook("site_information.xlsx")  
# print(data)   # <xlrd.book.Book object at 0x000001F1111C38D0> 在内存中  
# 获取特定Sheet  索引为0  也就是第一个表  
table = data.sheets()[0]  # 从零开始  
# 每条线路对应有哪些站点  字典推导式  
site_dic = {k: [] for k in line_list}  
site_list = []  
for i in range(1, table.nrows):  
    # 每一行的数据   返回的是一个列表  
    x = table.row_values(i)  
    if x[1] == "0":  
        # 只取上行站点数据  每条线路对应有哪些站点 添加进列表  
        site_dic[x[0]].append(x[3])  
        site_list.append(x[3])  
    else:  
        continue  
# print(len(site_dic))   # 618条线路  
# print(len(site_list))  # 15248条站点数据  
# 先初始化一个统计每个节点的度的列表  与线路名称列表里的索引一一对应  
node_count = [m * 0 for m in range(len(line_list))]  
# 以每条线路为一个节点  线路名称为键      值为一个列表  里面包含每条路线上行经过的所有站点  
sites = [site for site in site_dic.values()]  
# print(sites)  
# 统计各节点的度  
for j in range(len(sites) - 1):  # 类似冒泡法排序  比较多少趟  
    for k in range(j, len(sites) - 1):  # 每趟比较后  往后推一个  直到比较完  和防止越界  
        if len(sites[j]) > len(sites[k + 1]):  
            for x in sites[j]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  
        else:  
            for x in sites[k + 1]:  
                if x in sites[j] and x in sites[k + 1]:   # 只要这两条线路有公共站点  节点度数加1  
                    node_count[j], node_count[k + 1] = node_count[j] + 1, node_count[k + 1] + 1  
                    break   # 两条线路对应在列表索引的值加1   这两条线的比较结束  

# 找到该节点的邻居节点  邻居节点间实际的边数  
Ei = []  
# 对每条线路进行找邻接节点  并统计其邻接节点点实际的边数  
for a in range(len(sites)):  
    neighbor = []  
    if node_count[a] == 0:  
        Ei.append(0)  
        continue  
    if node_count[a] == 1:  
        Ei.append(0)  
        continue  
    for b in range(len(sites)):  
        if a == b:    # 自身  不比  
            continue  
        if len(sites[a]) > len(sites[b]):   # 从站点多的线路里选取站点   看是否有公共站点  
            for x in sites[a]:  
                if x in sites[a] and x in sites[b]:  # 找到邻居节点  
                    neighbor.append(sites[b])  
                    break  
        else:  
            for x in sites[b]:  
                if x in sites[a] and x in sites[b]:  # 找到邻居节点  
                    neighbor.append(sites[b])  
                    break  
    # 在邻居节点中判断这些节点的实际边数  又类似前面的方法  判断两两是否相连  
    count = 0  
    for c in range(len(neighbor) - 1):  
        for d in range(c, len(neighbor) - 1):  # 每趟比较后  往后推一个  直到比较完  和防止越界  
            try:  
                if len(sites[c]) > len(sites[d + 1]):  
                    for y in sites[c]:  
                        if y in sites[c] and y in sites[d + 1]:  # 邻居节点这两个也相连  
                            count += 1  
                            break  
                        else:  
                            continue  
                else:  
                    for y in sites[d + 1]:  
                        if y in sites[c] and y in sites[d + 1]:  # 邻居节点这两个也相连  
                            count += 1  
                            break  
                        else:  
                            continue  
            except IndexError:  
                break  
    Ei.append(count)  

# 每个节点的邻居节点间实际相连的边数  
# print(Ei)  
# 节点编号 与 节点的度数索引对应  
node_number = [y for y in range(len(node_count))]  

# 设置字体   matplotlib 不支持显示中文  自己本地设置  
mpl.rcParams['font.family'] = 'SimHei'  
# 设置大小  图的像素  
plt.figure(figsize=(10, 6), dpi=150)  
# 公交线路网络的聚类系数分布图像   相邻节点的连通程度  
Ci = []  
for m in range(len(node_number)):  
    if node_count[m] == 0:  
        Ci.append(0)  
    elif node_count[m] == 1:  
        Ci.append(0)  

    else:  # 2 * 该节点邻居节点实际连接边数 / 最大边数  
        Ci.append(2 * Ei[m] / (node_count[m] * (node_count[m] - 1)))  

# 各节点邻居节点的连通程度 计算平均聚类系数  
print("天津市公交线路网络平均聚类系数为:{:.4f}".format(sum(Ci) / len(Ci)))  
plt.bar(node_number, Ci, color="blue")  

# 添加描述信息  
plt.xlabel("节点编号n")  
plt.ylabel("节点的聚类系数")  
plt.title("线路网络中各节点的聚类系数分布", fontsize=15)  

plt.savefig("聚类系数分布.png")  
plt.show()  

结果如下:

天津市公交线路网络平均聚类系数为:0.0906  

手把手教你用Python进行城市公交网络分析与可视化

参考论文:

基于天津市公共交通网络的复杂性研究

基于复杂网络的城市公交网络拓扑特征及线路连通性分析

**-----**------**-----**---**** End **-----**--------**-----**-****

往期精彩文章推荐:

手把手教你用Python进行城市公交网络分析与可视化

欢迎各位大佬点击链接加入群聊【helloworld开发者社区】:https://jq.qq.com/?_wv=1027&k=mBlk6nzX进群交流IT技术热点。

本文转自 https://mp.weixin.qq.com/s/x4QmFeUMbpvPfs0QUHSmtQ,如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
2年前
4cast
4castpackageloadcsv.KumarAwanish发布:2020122117:43:04.501348作者:KumarAwanish作者邮箱:awanish00@gmail.com首页:
Stella981 Stella981
2年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
2个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这