mindspore_gl.dataset.BlogCatalog
- class mindspore_gl.dataset.BlogCatalog(root)[源代码]
BlogCatalog数据集,用于读取和解析BlogCatalog数据集的源数据集。
关于BlogCatalog数据集:
这是从BlogCatalog爬取的数据集。BlogCatalog是一个社交博客目录网站,其中包含已爬取的友谊网络和组成员资格。为了便于理解,所有内容都以CSV文件格式组织。
信息统计:
节点: 10,312
Edges: 333,983
类数量: 39
下载地址:BlogCatalog 。 您可以将数据集文件组织到以下目录结构中,并通过 preprocess API读取。
. └── ppi ├── edges.csv ├── group-edges.csv ├── groups.csv └── nodes.csv
- 参数:
root (str) - 包含BlogCatalog.npz的根目录的路径。
- 异常:
TypeError - 如果 root 不是str。
RuntimeError - 如果 root 不包含数据文件。
样例:
>>> from mindspore_gl.dataset.blog_catalog import BlogCatalog >>> root = "path/to/blog_catalog" >>> dataset = BlogCatalog(root)
- property adj_coo
返回COO表示的邻接矩阵。
- 返回:
numpy.ndarray,coo矩阵数组。
样例:
>>> #dataset is an instance object of Dataset >>> node_label = dataset.adj_coo
- property adj_csr
返回CSR表示的邻接矩阵。
- 返回:
numpy.ndarray,csr矩阵的数组。
样例:
>>> #dataset is an instance object of Dataset >>> node_label = dataset.adj_csr
- property edge_count
边数。
- 返回:
int,csr列的长度。
样例:
>>> #dataset is an instance object of Dataset >>> edge_count = dataset.edge_count
- property node_count
节点数。
- 返回:
int,csr行的长度。
样例:
>>> #dataset is an instance object of Dataset >>> node_count = dataset.node_count
- property node_label
基于每个节点的真实标签。
- 返回:
numpy.ndarray,节点标签数组。
样例:
>>> #dataset is an instance object of Dataset >>> node_label = dataset.node_label
- property num_classes
标签种类数量。
- 返回:
int,种类量。
样例:
>>> #dataset is an instance object of Dataset >>> num_classes = dataset.num_classes
- property vocab
各节点ID。
- 返回:
numpy.ndarray,节点ID数组。
样例:
>>> #dataset is an instance object of Dataset >>> node_label = dataset.vocab