电脑

干货 | 分析实战案例——用户行为预测

2025-11-26 12:18

(须要所设为总线的倍至少，否则不会放慢速度快)

data.head

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

data

Dask DataFrame Structure :

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

Dask Name: read-csv, 58 tasks

与pandas不同，这里我们均获取样本框的结构外观设计，而不是实际样本框。Dask已将样本帧分为几块启动时，这些块长期存在于磁盘上，而不长期存在于RAM中都。如果必须控制器样本帧，则首先须要将所有样本帧都放入RAM，将它们切口在一起，然后展览品如此一来一的样本帧。常用.compute强迫它这样要用，否则它不.compute 。其实dask常用了一种延误至少据启动时机制，这种延误机制类似于python的给定器缓冲器，只有当须要常用样本的时候才不会去无论如何启动时样本。

# 无论如何启动时样本 data.compute

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

# 建模岗位进程，58个西区任务 data.visualize

样本预处理过程

样本压缩

# 查看现在的样本多种类型 data.dtypes

U_Id int64

T_Id int64

C_Id int64

Be_type object

Ts int64

dtype: object

# 压缩形同 32位uint，无小写字母整型，因为交易样本很难小至少 dtypes = {

'U_Id': 'uint32',

'T_Id': 'uint32',

'C_Id': 'uint32',

'Be_type': 'object',

'Ts': 'int64'

}

data= data.astype(dtypes)

data.dtypes

U_Id uint32

T_Id uint32

C_Id uint32

Be_type object

Ts int64

dtype: object

紊乱表达式

# 以 dask模块读取的样本，无法这样一来用 .isnull等 pandas常用函至少筛查紊乱表达式 data.isnull

Dask DataFrame Structure :

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

columns1= [ 'U_Id', 'T_Id', 'C_Id', 'Be_type', 'Ts']

tmpDf1 = pd.DataFrame(columns=columns1)

tmpDf1

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

s = data[ "U_Id"].isna

s.loc[s == True]

Dask Series Structure:

npartitions= 58

bool ...

......

...

Name: U_Id, dtype: bool

Dask Name: loc-series, 348tasks

U_Id至多紊乱表达式总至少为0

T_Id至多紊乱表达式总至少为0

C_Id至多紊乱表达式总至少为0

Be_type至多紊乱表达式总至少为0

Ts至多紊乱表达式总至少为0

.dataframetbodytrth{

vertical-align: top;

}

.dataframetheadth{

text-align: right;

}

无紊乱表达式

样本探究与建模

这里我们常用pyecharts坎。pyecharts是一款将python与谷歌开源的echarts结合的样本建模工具。新版的1.X和原版的0.5.X新版本预定义规则大不相同，新版详见官方XML#/README

# pip install pyecharts -i https: //pypi.tuna.tsinghua.edu.cn/simple

Looking inindexes: https: //pypi.tuna.tsinghua.edu.cn/simple

Requirement already satisfied: pyecharts ind:anacondalibsite-packages ( 0.1.9.4)

Requirement already satisfied: jinja2 ind:anacondalibsite-packages ( frompyecharts)

( 3.0.2)

Requirement already satisfied: future ind:anacondalibsite-packages ( frompyecharts)

( 0.18.2)

Requirement already satisfied: pillow ind:anacondalibsite-packages ( frompyecharts)

( 8.3.2)

Requirement already satisfied: MarkupSafe>= 2.0ind:anacondalibsite-packages ( from

jinja2->pyecharts) ( 2.0.1)

Note: you may need to restart the kernel to use updated packages.

U_Id至多紊乱表达式总至少为 0T_Id至多紊乱表达式总至少为 0C_Id至多紊乱表达式总至少为 0Be_type至多紊乱表达式总至少为 0Ts至多紊乱表达式总至少为 0

WARNING: Ignoring invalid distribution -umpy (d:anacondalibsite-packages)