1数据集介绍

在本数据集中，介绍了新三板公司中一些公司的基本情况。针对这些信息，旨在分析出公司发生间接融资的概率，针对投资人的需求，使用数据分析做出正确的判断。

2.问题界定

主业务问题：基于k近邻算法，预测公司是否发生融资。

3.数据准备

1.导入数据分析工具和文件 2.数据检视

3.数据质量初步分析

根据数据的直方图可以看出不同字段的分布情况属于泊松分布的字段: maker_num, employee_num, board_num,executive_num

属于正态分布的字段 customer_rt_5all,supplier_rt_5all,net_asset_per_share,earning_per_share,asset_liablity_rt,ave_executive_age,holder_rt_1st

属于对数分布的字段 listing_days，registered_capital,register_days,customer_rt_1st,supplier_rt_1st,total_stock_equity，business_income,asset,liability,gross_cash_flow

特殊分布字段： holder_rt_10all

其他分布字段： supervisor_num,gross_profit_rt,net_profit_rt,roa,current_rt,asset_gr,income_gr,net_profit_gr,ave_executive_edu

4.数据预处理

1.可放弃字段本案例中一共48个字段，共有七个字段可以放弃部分字段放弃依据表

英文名称	特征名称	放弃依据
company_code	公司代码	公司标识，不参与数据建模
company_name	公司名称	公司标识，不参与数据建模
trading_days	交易日期	交易发生后字段，不用与分析
trading_price	交易价格	交易发生后字段，不用与分析
total_transaction_amount	交易总金额	交易发生后字段，不用与分析
financing_amount_wan	融资金额	交易发生后字段，不用与分析
outway	公司去向	与业务问题无关

需要转换的字段情况

2.模型输出组变量在放弃字段中，选择total_transaction_amount,作为输出组变量特征

3.异常值处理

导入数据处理需要的库，创建函数

数据集中有部分数据存在缺失值

对于连续变量使用均值填充

对于非连续变量使用众数填充

对于二元变量0值填充，存在为1，不存在为0

对于数据的异常值处理

数据分割

重采样

5.数据建模

k近邻算法

网格搜索

可以看出准确率还是比较高的，比没调参数之前搞了0.2个点。

制作混淆矩阵

可以看出精度较高，但召回率不太高，案例的目标并不是捕获少数类，所以不用太计较召回率的大小。使用f1分数发现，得出的结果不算太高，这是因为召回率较低的原因，由于并不追求高召回率，所以f1分数得出这个结果还是不错的。虚线表示随机预测曲线，fpr=tpr。表示的随机预测模型的效果。对于roc曲线，取左上角最好，在结果中，画出的曲线都在左上角，表明这个模型还是可以的。对于不平衡数据使用平衡准确度balanced accuracy来计算他的准确度是比较合适的。这个结果为74.63%，说明模型的准确度还是不错的，不是很高，但也不是很低，中规中矩。

本文章使用limfx的vscode插件快速发布

<strong>公司是否发生间接融资</strong>

1数据集介绍

2.问题界定

3.数据准备

4.数据预处理

5.数据建模