mindspore_gl.dataset.Reddit

class mindspore_gl.dataset.Reddit(root)[源代码]

Reddit 数据集,用于读取和解析Reddit数据集的源数据集。

有关Reddit数据集:

节点标签是社区,或帖子所属的“subreddit”。 作者对50个大型社区进行了抽样调查,并建立了一个post-to-post的图表,连接那些同一用户对两者发表评论的帖子。此数据集总共包含232,965个。 平均degree为492。我们利用头20天进行训练,剩余天数用于测试(30%用于验证)。

数据:

  • 节点: 232,965

  • 边: 114,615,892

  • 分类数量: 41

下载地址:Reddit 。 您可以将数据集文件组织到以下目录结构中进行读取。

.
├── reddit_data.npz
└── reddit_graph.npz
参数:
  • root (str) - 包含reddit_with_mask.npz的根目录路径。

异常:
  • TypeError - 如果 root 不是str。

  • RuntimeError - 如果 root 不包含数据文件。

样例:

>>> from mindspore_gl.dataset import Reddit
>>> root = "path/to/reddit"
>>> dataset = Reddit(root)
property adj_coo

返回COO表示的邻接矩阵。

返回:

numpy.ndarray,COO矩阵数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.adj_coo
property adj_csr

返回CSR表示的邻接矩阵。

返回:

numpy.ndarray,CSR矩阵数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.adj_csr
property edge_count

边的数量,CSR列的长度。

返回:

int,边的数量。

样例:

>>> #dataset is an instance object of Dataset
>>> edge_count = dataset.edge_count
property node_count

节点数量,CSR行的长度。

返回:

int,节点数量。

样例:

>>> #dataset is an instance object of Dataset
>>> node_count = dataset.node_count
property node_feat

节点特征。

返回:

numpy.ndarray,节点特征数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_feat = dataset.node_feat
property node_feat_size

每个节点的特征数量。

返回:

int,特征的数量。

样例:

>>> #dataset is an instance object of Dataset
>>> node_feat_size = dataset.node_feat_size
property node_label

每个节点的标签。

返回:

numpy.ndarray,节点标签的数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.node_label
property num_classes

标签类的数量。

返回:

int,分类数。

样例:

>>> #dataset is an instance object of Dataset
>>> num_classes = dataset.num_classes
property test_mask

测试节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> test_mask = dataset.test_mask
property test_nodes

测试节点索引。

返回:

numpy.ndarray,测试节点的数组。

样例:

>>> #dataset is an instance object of Dataset
>>> test_nodes = dataset.test_nodes
property train_mask

训练节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> train_mask = dataset.train_mask
property train_nodes

训练节点索引。

返回:

numpy.ndarray,训练节点的数组。

样例:

>>> #dataset is an instance object of Dataset
>>> train_nodes = dataset.train_nodes
property val_mask

校验节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> val_mask = dataset.val_mask
property val_nodes

验证节点索引。

返回:

numpy.ndarray,验证节点的数组。

样例:

>>> #dataset is an instance object of Dataset
>>> val_nodes = dataset.val_nodes