{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true,
    "pycharm": {
     "name": "#%% md\n"
    }
   },
   "source": [
    "# 快速入门：MindSpore Pandas数据处理\n",
    "\n",
    "[![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.0/resource/_static/logo_source.png)](https://gitee.com/mindspore/docs/blob/r2.0/docs/mindpandas/docs/source_zh_cn/mindpandas_quick_start.ipynb)\n",
    "\n",
    "数据预处理对于模型训练非常重要，好的特征工程可以大幅度提升训练精度。本章节以推荐系统的特征工程为例，介绍使用MindSpore Pandas处理数据的流程。\n",
    "\n",
    "## MindSpore Pandas执行模式设置\n",
    "\n",
    "MindSpore Pandas支持多线程与多进程模式，本示例使用多线程模式，更多详见[MindSpore Pandas执行模式介绍及配置说明](https://www.mindspore.cn/mindpandas/docs/zh-CN/r0.2/mindpandas_configuration.html)，并设置切片维度为16*3，示例如下："
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "pycharm": {
     "is_executing": true,
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "import mindpandas as pd\n",
    "import random\n",
    "\n",
    "pd.set_concurrency_mode(\"multithread\")\n",
    "pd.set_partition_shape((16, 3))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 数据生成\n",
    "\n",
    "生成10000行、40列的二维数据，包含标签、稠密特征以及稀疏特征等信息。标签是值为“0”或“1“的随机数、稠密特征是取值范围为（-10, 10000）的随机数、稀疏特征为随机字符串。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "DENSE_NUM = 13\n",
    "SPARSE_NUM = 26\n",
    "ROW_NUM = 10000\n",
    "cat_val, int_val, lab_val = [], [], []\n",
    "\n",
    "def gen_cat_feature(length):\n",
    "    result = hex(random.randint(0, 16 ** length)).replace('0x', '').upper()\n",
    "    if len(result) < length:\n",
    "        result = '0' * (length - len(result)) + result\n",
    "    return str(result)\n",
    "\n",
    "def gen_int_feature():\n",
    "    return random.randint(-10, 10000)\n",
    "\n",
    "def gen_lab_feature():\n",
    "    x = random.randint(0, 1)\n",
    "    return round(x)\n",
    "\n",
    "for i in range(ROW_NUM * SPARSE_NUM):\n",
    "    cat_val.append(gen_cat_feature(8))\n",
    "np_cat = np.array(cat_val).reshape(ROW_NUM, SPARSE_NUM)\n",
    "df_cat = pd.DataFrame(np_cat, columns=[f'C{i + 1}' for i in range(SPARSE_NUM)])\n",
    "\n",
    "for i in range(ROW_NUM * DENSE_NUM):\n",
    "    int_val.append(gen_int_feature())\n",
    "np_int = np.array(int_val).reshape(ROW_NUM, DENSE_NUM)\n",
    "df_int = pd.DataFrame(np_int, columns=[f'I{i + 1}' for i in range(DENSE_NUM)])\n",
    "\n",
    "for i in range(ROW_NUM):\n",
    "    lab_val.append(gen_lab_feature())\n",
    "np_lab = np.array(lab_val).reshape(ROW_NUM, 1)\n",
    "df_lab = pd.DataFrame(np_lab, columns=['label'])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 数据预处理\n",
    "\n",
    "将标签、稠密特征、稀疏特征等拼接为待处理的数据集，结果如下所示："
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>I1</th>\n",
       "      <th>I2</th>\n",
       "      <th>I3</th>\n",
       "      <th>I4</th>\n",
       "      <th>I5</th>\n",
       "      <th>I6</th>\n",
       "      <th>I7</th>\n",
       "      <th>I8</th>\n",
       "      <th>I9</th>\n",
       "      <th>...</th>\n",
       "      <th>C17</th>\n",
       "      <th>C18</th>\n",
       "      <th>C19</th>\n",
       "      <th>C20</th>\n",
       "      <th>C21</th>\n",
       "      <th>C22</th>\n",
       "      <th>C23</th>\n",
       "      <th>C24</th>\n",
       "      <th>C25</th>\n",
       "      <th>C26</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>5795</td>\n",
       "      <td>7051</td>\n",
       "      <td>8277</td>\n",
       "      <td>785</td>\n",
       "      <td>9305</td>\n",
       "      <td>7521</td>\n",
       "      <td>5206</td>\n",
       "      <td>6240</td>\n",
       "      <td>172</td>\n",
       "      <td>...</td>\n",
       "      <td>A5AE1E6D</td>\n",
       "      <td>25A100C3</td>\n",
       "      <td>C6B8E0A4</td>\n",
       "      <td>A94F6B56</td>\n",
       "      <td>B27D726B</td>\n",
       "      <td>EB9F3C73</td>\n",
       "      <td>D98D17B2</td>\n",
       "      <td>793AB315</td>\n",
       "      <td>8C12657F</td>\n",
       "      <td>AFCEEBFF</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0</td>\n",
       "      <td>6968</td>\n",
       "      <td>8389</td>\n",
       "      <td>4352</td>\n",
       "      <td>3312</td>\n",
       "      <td>4021</td>\n",
       "      <td>5087</td>\n",
       "      <td>2254</td>\n",
       "      <td>4249</td>\n",
       "      <td>4411</td>\n",
       "      <td>...</td>\n",
       "      <td>EEAC1040</td>\n",
       "      <td>BDC711B9</td>\n",
       "      <td>16269D1B</td>\n",
       "      <td>D59EA7BB</td>\n",
       "      <td>460218D4</td>\n",
       "      <td>F89E137C</td>\n",
       "      <td>F488ED52</td>\n",
       "      <td>C1DDB598</td>\n",
       "      <td>AE9C21C9</td>\n",
       "      <td>11D47A2A</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>1144</td>\n",
       "      <td>9327</td>\n",
       "      <td>9399</td>\n",
       "      <td>7745</td>\n",
       "      <td>8144</td>\n",
       "      <td>7189</td>\n",
       "      <td>1663</td>\n",
       "      <td>1005</td>\n",
       "      <td>6421</td>\n",
       "      <td>...</td>\n",
       "      <td>54EE530F</td>\n",
       "      <td>68D2F7EF</td>\n",
       "      <td>EFD65C79</td>\n",
       "      <td>B2F2CCF5</td>\n",
       "      <td>86E02110</td>\n",
       "      <td>31617C19</td>\n",
       "      <td>44A2DFA4</td>\n",
       "      <td>032C30D1</td>\n",
       "      <td>C8098BAD</td>\n",
       "      <td>CE4DD8BB</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>1</td>\n",
       "      <td>6214</td>\n",
       "      <td>3183</td>\n",
       "      <td>9229</td>\n",
       "      <td>938</td>\n",
       "      <td>9160</td>\n",
       "      <td>2783</td>\n",
       "      <td>2680</td>\n",
       "      <td>4775</td>\n",
       "      <td>4436</td>\n",
       "      <td>...</td>\n",
       "      <td>639D80AA</td>\n",
       "      <td>3A14B884</td>\n",
       "      <td>9FC92B4F</td>\n",
       "      <td>67DB3280</td>\n",
       "      <td>1EE1FC45</td>\n",
       "      <td>CE19F4C1</td>\n",
       "      <td>F34CC6FD</td>\n",
       "      <td>C3C9F66C</td>\n",
       "      <td>CA1B3F85</td>\n",
       "      <td>F184D01E</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>1</td>\n",
       "      <td>3220</td>\n",
       "      <td>3235</td>\n",
       "      <td>2243</td>\n",
       "      <td>50</td>\n",
       "      <td>5074</td>\n",
       "      <td>6328</td>\n",
       "      <td>6894</td>\n",
       "      <td>6838</td>\n",
       "      <td>3063</td>\n",
       "      <td>...</td>\n",
       "      <td>7671D909</td>\n",
       "      <td>126B3F69</td>\n",
       "      <td>1262514D</td>\n",
       "      <td>25C18137</td>\n",
       "      <td>2BA958DE</td>\n",
       "      <td>D6CE7BE3</td>\n",
       "      <td>18D4EEE1</td>\n",
       "      <td>315D0FFB</td>\n",
       "      <td>7C25DB1D</td>\n",
       "      <td>6E4ABFB1</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5 rows × 40 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "   label    I1    I2    I3    I4    I5    I6    I7    I8    I9  ...       C17  \\\n",
       "0      0  5795  7051  8277   785  9305  7521  5206  6240   172  ...  A5AE1E6D   \n",
       "1      0  6968  8389  4352  3312  4021  5087  2254  4249  4411  ...  EEAC1040   \n",
       "2      1  1144  9327  9399  7745  8144  7189  1663  1005  6421  ...  54EE530F   \n",
       "3      1  6214  3183  9229   938  9160  2783  2680  4775  4436  ...  639D80AA   \n",
       "4      1  3220  3235  2243    50  5074  6328  6894  6838  3063  ...  7671D909   \n",
       "\n",
       "        C18       C19       C20       C21       C22       C23       C24  \\\n",
       "0  25A100C3  C6B8E0A4  A94F6B56  B27D726B  EB9F3C73  D98D17B2  793AB315   \n",
       "1  BDC711B9  16269D1B  D59EA7BB  460218D4  F89E137C  F488ED52  C1DDB598   \n",
       "2  68D2F7EF  EFD65C79  B2F2CCF5  86E02110  31617C19  44A2DFA4  032C30D1   \n",
       "3  3A14B884  9FC92B4F  67DB3280  1EE1FC45  CE19F4C1  F34CC6FD  C3C9F66C   \n",
       "4  126B3F69  1262514D  25C18137  2BA958DE  D6CE7BE3  18D4EEE1  315D0FFB   \n",
       "\n",
       "        C25       C26  \n",
       "0  8C12657F  AFCEEBFF  \n",
       "1  AE9C21C9  11D47A2A  \n",
       "2  C8098BAD  CE4DD8BB  \n",
       "3  CA1B3F85  F184D01E  \n",
       "4  7C25DB1D  6E4ABFB1  \n",
       "\n",
       "[5 rows x 40 columns]"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df = pd.concat([df_lab, df_int, df_cat], axis=1)\n",
    "df.to_pandas().head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 特征工程\n",
    "\n",
    "1. 获取稠密数据每一列的最大值与最小值，为后续的归一化做准备。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "max_dict, min_dict = {}, {}\n",
    "for i, j in enumerate(df_int.max()):\n",
    "    max_dict[f'I{i + 1}'] = j\n",
    "\n",
    "for i, j in enumerate(df_int.min()):\n",
    "    min_dict[f'I{i + 1}'] = j"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "2. 截取df的第2列到第40列。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "features = df.iloc[:, 1:40]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true
   },
   "source": [
    "3. 对df的“label”列应用自定义函数，将“label”列中的数值转换为numpy数组，将数据添加到df的“label”列。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_label(x):\n",
    "    return np.array([x])\n",
    "df['label'] = df['label'].apply(get_label)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true
   },
   "source": [
    "4. 对features应用自定义函数，将稠密数据进行归一化处理，其他数据填充为1，将数据添加到df的“weight”列。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_weight(x):\n",
    "    ret = []\n",
    "    for index, val in enumerate(x):\n",
    "        if index < DENSE_NUM:\n",
    "            col = f'I{index + 1}'\n",
    "            ret.append((val - min_dict[col]) / (max_dict[col] - min_dict[col]))\n",
    "        else:\n",
    "            ret.append(1)\n",
    "    return ret\n",
    "feat_weight = features.apply(get_weight, axis=1)\n",
    "df['weight'] = feat_weight"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true
   },
   "source": [
    "5. 对features应用自定义函数，获取稠密数据的索引，其他数据使用其哈希值进行填充，将数据添加到df的“id”列。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_id(x):\n",
    "    ret = []\n",
    "    for index, val in enumerate(x):\n",
    "        if index < DENSE_NUM:\n",
    "            ret.append(index + 1)\n",
    "        else:\n",
    "            ret.append(hash(val))\n",
    "    return ret\n",
    "feat_id = features.apply(get_id, axis=1)\n",
    "df['id'] = feat_id"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 数据集划分\n",
    "\n",
    "df新增\"is_training\"列，将数据的前70%设为训练数据，其他数据标记为非训练数据。结果如下所示："
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>weight</th>\n",
       "      <th>label</th>\n",
       "      <th>is_training</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 31...</td>\n",
       "      <td>[0.5799200799200799, 0.705335731414868, 0.8280...</td>\n",
       "      <td>[0]</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -3...</td>\n",
       "      <td>[0.6971028971028971, 0.8390287769784173, 0.435...</td>\n",
       "      <td>[0]</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 71...</td>\n",
       "      <td>[0.11528471528471529, 0.9327537969624301, 0.94...</td>\n",
       "      <td>[1]</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 38...</td>\n",
       "      <td>[0.6217782217782217, 0.3188449240607514, 0.923...</td>\n",
       "      <td>[1]</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -3...</td>\n",
       "      <td>[0.3226773226773227, 0.3240407673860911, 0.225...</td>\n",
       "      <td>[1]</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9995</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -6...</td>\n",
       "      <td>[0.09270729270729271, 0.3959832134292566, 0.03...</td>\n",
       "      <td>[0]</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9996</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 12...</td>\n",
       "      <td>[0.5147852147852148, 0.48810951239008793, 0.46...</td>\n",
       "      <td>[1]</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9997</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -2...</td>\n",
       "      <td>[0.4792207792207792, 0.4045763389288569, 0.514...</td>\n",
       "      <td>[1]</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9998</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -6...</td>\n",
       "      <td>[0.550949050949051, 0.1035171862509992, 0.2167...</td>\n",
       "      <td>[0]</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9999</th>\n",
       "      <td>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -4...</td>\n",
       "      <td>[0.9004995004995004, 0.9000799360511591, 0.826...</td>\n",
       "      <td>[0]</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>10000 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                     id  \\\n",
       "0     [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 31...   \n",
       "1     [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -3...   \n",
       "2     [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 71...   \n",
       "3     [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 38...   \n",
       "4     [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -3...   \n",
       "...                                                 ...   \n",
       "9995  [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -6...   \n",
       "9996  [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 12...   \n",
       "9997  [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -2...   \n",
       "9998  [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -6...   \n",
       "9999  [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, -4...   \n",
       "\n",
       "                                                 weight label  is_training  \n",
       "0     [0.5799200799200799, 0.705335731414868, 0.8280...   [0]            1  \n",
       "1     [0.6971028971028971, 0.8390287769784173, 0.435...   [0]            1  \n",
       "2     [0.11528471528471529, 0.9327537969624301, 0.94...   [1]            1  \n",
       "3     [0.6217782217782217, 0.3188449240607514, 0.923...   [1]            1  \n",
       "4     [0.3226773226773227, 0.3240407673860911, 0.225...   [1]            1  \n",
       "...                                                 ...   ...          ...  \n",
       "9995  [0.09270729270729271, 0.3959832134292566, 0.03...   [0]            0  \n",
       "9996  [0.5147852147852148, 0.48810951239008793, 0.46...   [1]            0  \n",
       "9997  [0.4792207792207792, 0.4045763389288569, 0.514...   [1]            0  \n",
       "9998  [0.550949050949051, 0.1035171862509992, 0.2167...   [0]            0  \n",
       "9999  [0.9004995004995004, 0.9000799360511591, 0.826...   [0]            0  \n",
       "\n",
       "[10000 rows x 4 columns]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "m_train_len = int(len(df) * 0.7)\n",
    "df['is_training'] = [1] * m_train_len + [0] * (len(df) - m_train_len)\n",
    "df = df[['id', 'weight', 'label', 'is_training']]\n",
    "df.to_pandas()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true
   },
   "source": [
    "至此，数据生成、数据预处理以及特征工程等操作已完成，处理好的数据即可传入模型进行训练。"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 1
}