4.3. Построение модели знаний
Перейдем к описанию МЗ как оценкам кредитного субъективного поведения в строго-определенных по социально-демографическим признакам и существенному признаку «хорошая»/ «плохая» кредитная история в группах U01, …, U64, причем U01,...,U32 – для заемщиков, вернувших кредит, и U33,…, U64 – для не вернувших кредит:
(4.1)
Исходя из того, что каждому типу КЗ соответствует по степени «схожести» СПП, которое теперь более дифференцированно по степени значимости того или иного СЗП для определенного типа, воспользуемся методом классификации с учителем, то есть на этапе предварительной обработки определим характерные вектора отличий для определенного типа на обучающей выборке.
В качестве обучающей выборки выступают данные, полученные в результате анкетирования респондентов с использованием модуля автоматизированного формирования анкеты, разработанного в данной работе.
С целью определения характерных векторов отличия были обработаны 987 анкет. Такой вектор имеет следующую структуру:
(4.2)
где ; – количество заемщиков в m-ной группе.
Первые пять координат отвечают за принадлежность к строго-определенной социально-демографической группе. Остальные координаты указывают характерные градации для СПП определенного типа КЗ для конкретной указанной группы.
Итак, имеется 64 вектора отличий, характеризующих каждую группу. Отметим, в процессе дальнейшего обучения или актуализации модели значения векторов отличий могут меняться.
Далее приведена разработанная методика обучения модели для определения первоначальных векторов отличий.
Представим статистические данные в виде таблицы, которая содержит градации СЗП, означающие степень выраженности определенного СЗП, формирующие СПП «хорошего» или «плохого» КЗ строго определенной социально-демографической группы. Фрагмент данных, полученных в ходе семантического эксперимента, представлен в виде табл. 4.3.
Для обозначения каждого j-го события-признака используется комбинация чисел, в которой первые два разряда – группа событий-признаков, последние два разряда – порядковый номер события-признака в группе признаков.
Так как полученные веса СЗП являются ГНС, получаем шаблон-маску (табл. 4.4) относительных частот появления определенных СЗП для строго определенных социально-демографических групп, причем выполняются условия (4.4):
(4.4)
где , например, , означает, что это частота встречаемости в первой социально-демографической группе первого СЗП с градацией ноль. Введение частот встречаемости позволяет перейти от булевых переменных к непрерывным в диапазоне [0,1].
Таблица 4.3
Фрагмент данных, полученных в ходе семантического эксперимента
Группы соц.-дем. признаков | События-признаки, соответствующие соц.-дем. признакам | Признак успеш-ности кредита | События-признаки (СЗП), формирующим СПП КЗ | |||||
Пол Z07 | Образова-ние Z08 | Семейное положе-ние Z09 | Возраст Z10 | Yi | Z01 01 | Z01 02 | … | |
Группа 1 | 1 | 1 | 1 | 1 | 1 | 6 | 5 | … |
1 | 1 | 1 | 1 | 1 | 5 | 1 | … | |
Группа 2 | 1 | 2 | 1 | 1 | 1 | 5 | 2 | … |
1 | 2 | 1 | 1 | 1 | 4 | 0 | … | |
Группа 64 | 2 | 2 | 2 | 4 | 0 | 0 | 2 | … |
Таблица 4.4
Фрагмент шаблона-маски для обучения Л-модели
Слово-значение | Градация слова-значения | Частота встречаемости слова-значения в группах респондентов кредитных заемщиков | ||||
№1 | №2 | №3 | ... | №64 | ||
Быстро | 0 | 0/32 | 0/54 | 0/64 | … | 0 |
Быстро | 1 | 0/32 | 0/54 | 0/64 | … | 0 |
Быстро | 2 | 0/32 | 0/54 | 0/64 | … | 0 |
Быстро | 3 | 0/32 | 0/54 | 0/64 | … | 5/5 |
Быстро | 4 | 0/32 | 39/54 | 37/64 | … | 0 |
Быстро | 5 | 0/32 | 0/54 | 8/64 | … | 0 |
Быстро | 6 | 32/32 | 15/54 | 19/64 | … | 0 |
… | … | … | … | … | … | … |
Например, в группе № 3 вернувших кредит вовремя, которую представляют мужчины (64 человека) со средне-специальным образованием, не имеющие детей, в возрасте от 35 до 45 лет заявленному слову-значению «быстро» указали вес 0 – 0 человек, 1 – 0 человек, 2 – 0 человек, 3 – 0 человек, 4 – 37 человек, 5 – 8 человек и 6 – 19 человек соответственно.
Это означает, что наибольший уровень значимости – 6 данного слова-значения встречается с частотой , далее уровень значимости 5 с частотой , уровень значимости 4 с частотой . Уровни значимости 0,1,2,3 не были отмечены ни одним из соискателей этой группы. Сумма полученных частот такой ГНС равна 1: .Далее, для перехода от вектора , характеризующего i-го заемщика, к вектору отличий , характеризующему m-ую группу в целом (в которую входит по условию заемщик), каждому событию-признаку Zj поставим в соответствие r относительных частот по количеству событий-градаций для Zj.
Таким образом, для каждой m-й группы в соответствии с заданной структурой (4.2) получаем вектор отличий, характеризующий типовое СПП каждой m-й группы:
который хранится и является основой формирования шаблона-маски для дальнейшей оценки соискателя.
Для каждого i-го заемщика m-й группы определяется оценка:
(4.5)
где – компоненты вектора-строки конкретного i-го заемщика; – количество событий-признаков; – частоты, взятые из матрицы шаблона-маски.
Таким образом, имеем МЗ, которая является описательной моделью – конечным множеством векторов отличий субъективного кредитного поведения. Координаты, отвечающие за субъективное поведение, отражают предпочтение того или иного СЗП, которые формируют СПП, характерное для определенного типа КЗ в строгом соответствии с указанными социально-демографическими признаками и наиболее существенным признаком «хорошая»/ «плохая» кредитная история.
На основании имеющейся модели осуществим оценку рисков невозврата кредитных средств, связанных с субъективным кредитным поведением.
Зададимся условием, что ответы на анкетируемые социально-демографические признаки соответствуют истине, то есть соответствуют выявленному и описанному шаблоном-матрицей весов СЗП – СПП для строго определенного типа КЗ, которые в срок вернули кредит – группы и, соответственно для типа КЗ, не вернувших в срок кредит – группы .
Для определения степени отличия возможно несколько вариантов. Можно использовать точечную оценку, сравнивая характерную частоту группы с характерной частотой соискателя , рассчитываемой по формуле (4.5).
Сравнивая полученные и находим коэффициент отличия, выраженный, например, в процентах:
(4.6)
В данной работе предложены и далее реализованы следующие методы, лежащие в основе принятия решений:
метод на основе расчета рангового коэффициента корреляции Спирмена между типовым СПП m-й группы и индивидуальным СПП s-го соискателя;
метод интервальной оценки рисков невозврата кредитных средств, связанных с субъективным кредитным поведением (классификации соискателя/кредита).
Рассмотрим метод, который осуществляется на основе расчета рангового коэффициента корреляции Спирмена между типовым СПП m-й группы и индивидуальным СПП s-го соискателя.
Сформулируем гипотезы:
Перед расчетом коэффициента ранговой корреляции и введем поправки на одинаковые ранги
, (4.7)
где – объем каждой группы одинаковых рангов в ранговом ряду типового профиля соответствующей группы ; – объем каждой группы одинаковых рангов в ранговом ряду типового профиля соответствующей группы .
, (4.8)
где bs – объем каждой группы одинаковых рангов в ранговом ряду индивидуального профиля s-го соискателя.
Для расчета эмпирического значения используем формулы
(4.9)
(4.10)
где – разности рангов значений рангового ряда типового профиля группы и рангового ряда индивидуального профиля s-го соискателя, – разности рангов значений рангового ряда типового профиля группы и рангового ряда индивидуального профиля s-го соискателя.
Полученные эмпирические значения и следует сравнить с критическими значениями при и , заданными таблично [53]. Решение «выдать кредит» принимается при условии при . Если при – принимается решение «отказать», далее решение переподтверждается, если при .
Классификация соискателя (кредита) на основе рисков невозврата кредитных средств, связанных с субъективным кредитным поведением, осуществляется следующим образом.
Вычислим выборочное среднее и стандартное отклонение выборочного среднего для случайной величины со значениями , где (конкретная частота для i-го заемщика m-й группы обучающей выборки) для всех имеющихся групп:
(4.11)
. (4.12)
При этом вопрос репрезентативности выборки решается на основании коэффициента точности [81], который является показателем точности оценки средней и определяется следующим образом:
введем ошибку средней ;
введем коэффициент точности ; (4.13)
примем условие c принятым коэффициентом точности [81]:
; (4.14)
предварительно определим величину границ доверительного интервала в соответствии с принятым уровнем значимости:
; (4.15)
рассчитаем, во сколько раз необходимо уменьшить величину ошибки, чтобы достичь заданного уровня точности
; (4.16)
определим
; (4.17)
; (4.18)
тогда объем выборки для заданной точности определяется следующим образом:
или . (4.19)
Далее находим интервалы для R=0,05 и R=0,10 соответственно, учитывая, что где [133]:
для R=0,05;
для R=0,10.
Определяем по (4.5) для соискателя оценку , где , если вектор-строка соискателя «накладывается» на шаблон-маску с вектором отличия при Y=1, также по (4.5) определяем оценку , где при Y=0.
Полученные величины – степени отличия вектора соискателя и вектора отличий для групп из шаблона-маски с совпадающими социально-демографическими признаками при Y=1 и Y=0 соответственно, по сути, сумма частот, совпадающих по весу с шаблоном слов-значений, разделенная на количество всех слов-значений, и будет вероятностью попадания соискателя в строго определенную социально-демографическую группу вернувших или не вернувших кредит заемщиков:
(4.20) |
(4.21) |
(4.22) |
(4.23) |
Например, если выполняется неравенство (4.20) – рассматриваемый риск невозврата кредита составляет 5 %; если выполняется условие (4.21), то риск невозврата – 95 %.
В задачах выбора решений используются различные механизмы, которые определяются в зависимости от степени формализации факторов, влияющих на принятие решений, выбор цели и алгоритмизацию самого процесса выработки решения [26, 27, 99, 106].
Таким образом, метод построения модели знаний, отражающей оценку рисков на основе оценки субъективного кредитного поведения путем синтеза модифицированного метода многомерного шкалирования и адаптированного и модифицированного метода ЛВ-моделирования, позволяет анализировать «значимость» того или иного СЗП в соответствии с типологией КЗ в условиях, когда разнородные дискретные данные имеют многомерное распределение. Сценарий риска является ассоциативным и рассматривается только как гипотеза, что является большим преимуществом при оценке психологических аспектов. Инициирующие события-признаки могут иметь больше двух состояний, что дает возможность увеличения динамически меняющегося многомерного множества разнородных признаков. Реализованы два метода принятия решения: на основе расчета рангового коэффициента корреляции Спирмена и на основе интервальной оценки, что позволяет, в первом случае, принимать решения в период накопления статистических данных на этапе тестирования и ввода в эксплуатацию ИСППР, а также в периоды накопления данных по анкетам с новыми СЗП, во втором случае – варьировать уровни риска и использовать большое количество исследуемых признаков.
Еще по теме 4.3. Построение модели знаний:
- 4.2. Определение формы представления данных для построения модели знаний
- Глава 4. Разработка метода построения модели знаний на основе оценки кредитоспособности
- МОДЕЛИ ПОСТРОЕНИЯ ГОСУДАРСТВЕННОГО АППАРАТА И ЕГО СООТНОШЕНИЕ С ОРГАНАМИ МЕСТНОГО САМОУПРАВЛЕНИЯ
- Метод философского синтеза не пригоден для построения общенаучной модели Вселенной.
- Понятие, сущность н виды версий, их построение и проверка. Соотношение версии и модели расследования
- Тема 22 ПРОБЛЕМЫ ПОСТРОЕНИЯ ПРАВОВЫХ НОРМ. ПРИЕМВІ (СПОСОБЫ) ПРАВОТВОРЧЕСКОЙ ТЕХНИКИ ПРИ ПОСТРОЕНИИ НОРМ ПРАВА В РОССИЙСКОЙ ПРАВОВОЙ СИСТЕМЕ
- 4.5. Модели рыночной экономики. Особенности белорусской экономической модели
- 4. Модель «совокупный спрос и совокупное предложение» как базовая модель макроэкономического равновесия
- §3. Структура криминологических знаний
- § 3. Структура криминологических знаний
- К вопросу об уровнях знаний в юридической науке