mindspore_gl.dataset.CoraV2

class mindspore_gl.dataset.CoraV2(root, name='cora_v2')[源代码]

Cora Dataset,用于读取和解析Cora数据集的源数据集。

有关Cora数据集:

Cora数据集包括2708份科学出版物,分为七类。引文网络由10556个链接组成。数据集中的每个发布都由0/1-valued单词向量描述,指示词典中相应单词的不存在/存在。该词典由1433个独特的单词组成。

数据:

  • 节点: 2708

  • 边: 10556

  • 分类数量: 7

  • 标签分类:

    • Train: 140

    • Valid: 500

    • Test: 1000

下载地址:

cora_v2

citeseer

pubmed

您可以将数据集文件组织到以下目录结构中进行读取。

.
└── corav2
    ├── ind.cora_v2.allx
    ├── ind.cora_v2.ally
    ├── ind.cora_v2.graph
    ├── ind.cora_v2.test.index
    ├── ind.cora_v2.tx
    ├── ind.cora_v2.ty
    ├── ind.cora_v2.x
    └── ind.cora_v2.y
参数:
  • root (str) - 包含cora_v2_with_mask.npz的根目录的路径。

  • name (str, 可选) - 选择数据集类型,可选:[“cora_v2”, “citeseer”, “pubmed”]。默认值:”cora_v2”。

    • cora_v2: 机器学习论文。

    • citeseer: Agents、AI、DB、IR、ML和HCI领域的论文。

    • pubmed: 关于糖尿病的科学出版物。

异常:
  • RuntimeError - 如果 root 不包含数据文件。

样例:

>>> from mindspore_gl.dataset import CoraV2
>>> root = "path/to/cora_v2_with_mask.npz"
>>> dataset = CoraV2(root)
property adj_coo

返回COO表示的邻接矩阵。

返回:

numpy.ndarray,COO矩阵数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.adj_coo
property adj_csr

返回CSR表示的邻接矩阵。

返回:

numpy.ndarray,CSR矩阵的数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.adj_csr
property edge_count

边数,CSR列的长度。

返回:

int,边的数量。

样例:

>>> #dataset is an instance object of Dataset
>>> edge_count = dataset.edge_count
property node_count

节点数,CSR行的长度。

返回:

int,节点的数量。

样例:

>>> #dataset is an instance object of Dataset
>>> node_count = dataset.node_count
property node_feat

节点特征。

返回:

numpy.ndarray,节点特征数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_feat = dataset.node_feat
property node_feat_size

每个节点的特征维度。

返回:

int,特征的维度。

样例:

>>> #dataset is an instance object of Dataset
>>> node_feat_size = dataset.node_feat_size
property node_label

每个节点的真实标签。

返回:

numpy.ndarray,节点标签数组。

样例:

>>> #dataset is an instance object of Dataset
>>> node_label = dataset.node_label
property num_classes

标签类数量。

返回:

int,类的数量。

样例:

>>> #dataset is an instance object of Dataset
>>> num_classes = dataset.num_classes
property test_mask

测试节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> test_mask = dataset.test_mask
property train_mask

训练节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> train_mask = dataset.train_mask
property train_nodes

训练节点索引。

返回:

numpy.ndarray,训练节点数组。

样例:

>>> #dataset is an instance object of Dataset
>>> train_nodes = dataset.train_nodes
property val_mask

校验节点掩码。

返回:

numpy.ndarray,掩码数组。

样例:

>>> #dataset is an instance object of Dataset
>>> val_mask = dataset.val_mask