Overview

  • N=1781,M=33641N=1781, M=33641
  • 数据来源:果蝇的 medulla (延脑?)
  • 果蝇的视觉信号在理论上一定会经过 medulla
  • 原论文试图从 medulla 中寻找出视觉在该部分的处理过程。

Some indexes

平均度:5.466 平均加权度:18.889 平均聚类系数:0.147 直径 11 平均路径长度 4.020873591884404

度分布讨论

  • 偏差较大的幂律分布
  • 给定数据有重边,离散性也大
  • 幂指数估计在 -2 到 -3 左右
  • 长尾效应显著
  • 全图绝大多数点的度数不大
  • 少数点承担了 Hub 工作
  • 无标度图

感性体验-OpenOrd+可视化

Girvan-Newman Algorithm

  • Gephi’s Plugin
  • Circle Pack Layout 以 Cluster ID 为输入,其中点按Cluster的大小染色,边按权值染色
  • (原图中有大量 proofreading 有问题的数据,只选取了有明确分区的进行分析)
  • 取出粉色的 Cluster 进行详细分析后,该 Cluster 主要由原图中的左下角一部分组成,包括所有紫色的部分和一部分与其相连的部分
  • 细节:这个 Cluster 的密度比全局密度要高,大约在 0.07 ,平均度数在 5 左右

Community Detection

  • 直接用 OpenOrd 跑有若干问题
  • 随机性太强:更换 seed 以后往往跑出来的结果变化比较大
  • 看不清 Community 的具体性质
  • 新的问题: NetworkX 的大部分方法实现只能用在无向图上
  • 表现为运行时报错
  • 例如 girvan_newman() 直接调用了 g = G.copy().to_undirected()
  • nx.is_connected(graph) 仅对无向图实现
  • 效果不佳的原因
  • 数据信息量太少,仅靠拓扑结构恐怕很难做更加细致的分析
  • 原文作者是通过细胞的性质给其标上了更精确的信息

Graph Embedding & Clustering

  • 试图引入一些机器学习方法
  • SCD: 相当糟糕,比猜的还糟糕
  • EdMot: 由于有大量未能 proofreading 的数据,很难精确计算准确度,但在已经 proofreading 的数据中,预测的精确度也不好。
  • 表现较好的 PM2-like P(cluster=2PM2like)=0.5P( cluster = 2 | PM2-like ) = 0.5P(PM2likecluster=2)=0.4P(PM2-like |cluster = 2 ) = 0.4
  • 数据量大的 T4 有 P(T4cluster=1)<0.2P(T4|cluster = 1) < 0.2P(cluster=1T4)=0.5P(cluster=1|T4)=0.5P(T4cluster=10)=0.92P(T4|cluster=10)=0.92P(cluster=10T4)=0.5P(cluster=10|T4)=0.5
  • 对于比较少的分类效果更差

可视化实验 —— Edmot