<<
>>

4.3. Построение модели знаний

Перейдем к описанию МЗ как оценкам кредитного субъективного поведения в строго-определенных по социально-демографическим признакам и существенному признаку «хорошая»/ «плохая» кредитная история в группах U01, …, U64, причем U01,...,U32 – для заемщиков, вернувших кредит, и U33,…, U64 – для не вернувших кредит:

(4.1)

Исходя из того, что каждому типу КЗ соответствует по степени «схожести» СПП, которое теперь более дифференцированно по степени значимости того или иного СЗП для определенного типа, воспользуемся методом классификации с учителем, то есть на этапе предварительной обработки определим характерные вектора отличий для определенного типа на обучающей выборке.

В качестве обучающей выборки выступают данные, полученные в результате анкетирования респондентов с использованием модуля автоматизированного формирования анкеты, разработанного в данной работе.

С целью определения характерных векторов отличия были обработаны 987 анкет. Такой вектор имеет следующую структуру:

(4.2)

где ; – количество заемщиков в m-ной группе.

Первые пять координат отвечают за принадлежность к строго-определенной социально-демографической группе. Остальные координаты указывают характерные градации для СПП определенного типа КЗ для конкретной указанной группы.

Итак, имеется 64 вектора отличий, характеризующих каждую группу. Отметим, в процессе дальнейшего обучения или актуализации модели значения векторов отличий могут меняться.

Далее приведена разработанная методика обучения модели для определения первоначальных векторов отличий.

Представим статистические данные в виде таблицы, которая содержит градации СЗП, означающие степень выраженности определенного СЗП, формирующие СПП «хорошего» или «плохого» КЗ строго определенной социально-демографической группы. Фрагмент данных, полученных в ходе семантического эксперимента, представлен в виде табл. 4.3.

Для обозначения каждого j-го события-признака используется комбинация чисел, в которой первые два разряда – группа событий-признаков, последние два разряда – порядковый номер события-признака в группе признаков.

Так как полученные веса СЗП являются ГНС, получаем шаблон-маску (табл. 4.4) относительных частот появления определенных СЗП для строго определенных социально-демографических групп, причем выполняются условия (4.4):

(4.4)

где , например, , означает, что это частота встречаемости в первой социально-демографической группе первого СЗП с градацией ноль. Введение частот встречаемости позволяет перейти от булевых переменных к непрерывным в диапазоне [0,1].

Таблица 4.3

Фрагмент данных, полученных в ходе семантического эксперимента

Группы

соц.-дем. признаков

События-признаки,

соответствующие

соц.-дем.

признакам

Признак успеш-ности кредита События-признаки (СЗП), формирующим СПП КЗ
Пол Z07 Образова-ние Z08 Семейное положе-ние Z09 Возраст Z10 Yi Z01 01 Z01 02
Группа 1 1 1 1 1 1 6 5
1 1 1 1 1 5 1
Группа 2 1 2 1 1 1 5 2
1 2 1 1 1 4 0
Группа 64 2 2 2 4 0 0 2

Таблица 4.4

Фрагмент шаблона-маски для обучения Л-модели

Слово-значение Градация слова-значения Частота встречаемости

слова-значения в группах респондентов кредитных заемщиков

№1 №2 №3 ... №64
Быстро 0 0/32 0/54 0/64 0
Быстро 1 0/32 0/54 0/64 0
Быстро 2 0/32 0/54 0/64 0
Быстро 3 0/32 0/54 0/64 5/5
Быстро 4 0/32 39/54 37/64 0
Быстро 5 0/32 0/54 8/64 0
Быстро 6 32/32 15/54 19/64 0

Например, в группе № 3 вернувших кредит вовремя, которую представляют мужчины (64 человека) со средне-специальным образованием, не имеющие детей, в возрасте от 35 до 45 лет заявленному слову-значению «быстро» указали вес 0 – 0 человек, 1 – 0 человек, 2 – 0 человек, 3 – 0 человек, 4 – 37 человек, 5 – 8 человек и 6 – 19 человек соответственно.

Это означает, что наибольший уровень значимости – 6 данного слова-значения встречается с частотой , далее уровень значимости 5 с частотой , уровень значимости 4 с частотой . Уровни значимости 0,1,2,3 не были отмечены ни одним из соискателей этой группы. Сумма полученных частот такой ГНС равна 1: .

Далее, для перехода от вектора , характеризующего i-го заемщика, к вектору отличий , характеризующему m-ую группу в целом (в которую входит по условию заемщик), каждому событию-признаку Zj поставим в соответствие r относительных частот по количеству событий-градаций для Zj.

Таким образом, для каждой m-й группы в соответствии с заданной структурой (4.2) получаем вектор отличий, характеризующий типовое СПП каждой m-й группы:

который хранится и является основой формирования шаблона-маски для дальнейшей оценки соискателя.

Для каждого i-го заемщика m-й группы определяется оценка:

(4.5)

где – компоненты вектора-строки конкретного i-го заемщика; – количество событий-признаков; – частоты, взятые из матрицы шаблона-маски.

Таким образом, имеем МЗ, которая является описательной моделью – конечным множеством векторов отличий субъективного кредитного поведения. Координаты, отвечающие за субъективное поведение, отражают предпочтение того или иного СЗП, которые формируют СПП, характерное для определенного типа КЗ в строгом соответствии с указанными социально-демографическими признаками и наиболее существенным признаком «хорошая»/ «плохая» кредитная история.

На основании имеющейся модели осуществим оценку рисков невозврата кредитных средств, связанных с субъективным кредитным поведением.

Зададимся условием, что ответы на анкетируемые социально-демографические признаки соответствуют истине, то есть соответствуют выявленному и описанному шаблоном-матрицей весов СЗП – СПП для строго определенного типа КЗ, которые в срок вернули кредит – группы и, соответственно для типа КЗ, не вернувших в срок кредит – группы .

Для определения степени отличия возможно несколько вариантов. Можно использовать точечную оценку, сравнивая характерную частоту группы с характерной частотой соискателя , рассчитываемой по формуле (4.5).

Сравнивая полученные и находим коэффициент отличия, выраженный, например, в процентах:

(4.6)

В данной работе предложены и далее реализованы следующие методы, лежащие в основе принятия решений:

­ метод на основе расчета рангового коэффициента корреляции Спирмена между типовым СПП m-й группы и индивидуальным СПП s-го соискателя;

­ метод интервальной оценки рисков невозврата кредитных средств, связанных с субъективным кредитным поведением (классификации соискателя/кредита).

Рассмотрим метод, который осуществляется на основе расчета рангового коэффициента корреляции Спирмена между типовым СПП m-й группы и индивидуальным СПП s-го соискателя.

Сформулируем гипотезы:

Перед расчетом коэффициента ранговой корреляции и введем поправки на одинаковые ранги

, (4.7)

где – объем каждой группы одинаковых рангов в ранговом ряду типового профиля соответствующей группы ; – объем каждой группы одинаковых рангов в ранговом ряду типового профиля соответствующей группы .

, (4.8)

где bs – объем каждой группы одинаковых рангов в ранговом ряду индивидуального профиля s-го соискателя.

Для расчета эмпирического значения используем формулы

(4.9)

(4.10)

где – разности рангов значений рангового ряда типового профиля группы и рангового ряда индивидуального профиля s-го соискателя, – разности рангов значений рангового ряда типового профиля группы и рангового ряда индивидуального профиля s-го соискателя.

Полученные эмпирические значения и следует сравнить с критическими значениями при и , заданными таблично [53]. Решение «выдать кредит» принимается при условии при . Если при – принимается решение «отказать», далее решение переподтверждается, если при .

Классификация соискателя (кредита) на основе рисков невозврата кредитных средств, связанных с субъективным кредитным поведением, осуществляется следующим образом.

Вычислим выборочное среднее и стандартное отклонение выборочного среднего для случайной величины со значениями , где (конкретная частота для i-го заемщика m-й группы обучающей выборки) для всех имеющихся групп:

(4.11)

. (4.12)

При этом вопрос репрезентативности выборки решается на основании коэффициента точности [81], который является показателем точности оценки средней и определяется следующим образом:

­ введем ошибку средней ;

­ введем коэффициент точности ; (4.13)

­ примем условие c принятым коэффициентом точности [81]:

; (4.14)

­ предварительно определим величину границ доверительного интервала в соответствии с принятым уровнем значимости:

; (4.15)

­ рассчитаем, во сколько раз необходимо уменьшить величину ошибки, чтобы достичь заданного уровня точности

; (4.16)

­ определим

; (4.17)

; (4.18)

­ тогда объем выборки для заданной точности определяется следующим образом:

или . (4.19)

Далее находим интервалы для R=0,05 и R=0,10 соответственно, учитывая, что где [133]:

для R=0,05;

для R=0,10.

Определяем по (4.5) для соискателя оценку , где , если вектор-строка соискателя «накладывается» на шаблон-маску с вектором отличия при Y=1, также по (4.5) определяем оценку , где при Y=0.

Полученные величины – степени отличия вектора соискателя и вектора отличий для групп из шаблона-маски с совпадающими социально-демографическими признаками при Y=1 и Y=0 соответственно, по сути, сумма частот, совпадающих по весу с шаблоном слов-значений, разделенная на количество всех слов-значений, и будет вероятностью попадания соискателя в строго определенную социально-демографическую группу вернувших или не вернувших кредит заемщиков:

(4.20)
(4.21)
(4.22)
(4.23)

Например, если выполняется неравенство (4.20) – рассматриваемый риск невозврата кредита составляет 5 %; если выполняется условие (4.21), то риск невозврата – 95 %.

В задачах выбора решений используются различные механизмы, которые определяются в зависимости от степени формализации факторов, влияющих на принятие решений, выбор цели и алгоритмизацию самого процесса выработки решения [26, 27, 99, 106].

Таким образом, метод построения модели знаний, отражающей оценку рисков на основе оценки субъективного кредитного поведения путем синтеза модифицированного метода многомерного шкалирования и адаптированного и модифицированного метода ЛВ-моделирования, позволяет анализировать «значимость» того или иного СЗП в соответствии с типологией КЗ в условиях, когда разнородные дискретные данные имеют многомерное распределение. Сценарий риска является ассоциативным и рассматривается только как гипотеза, что является большим преимуществом при оценке психологических аспектов. Инициирующие события-признаки могут иметь больше двух состояний, что дает возможность увеличения динамически меняющегося многомерного множества разнородных признаков. Реализованы два метода принятия решения: на основе расчета рангового коэффициента корреляции Спирмена и на основе интервальной оценки, что позволяет, в первом случае, принимать решения в период накопления статистических данных на этапе тестирования и ввода в эксплуатацию ИСППР, а также в периоды накопления данных по анкетам с новыми СЗП, во втором случае – варьировать уровни риска и использовать большое количество исследуемых признаков.

<< | >>
Источник: Е.Ю. Андиева, И.И. Семенова. ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИЙ В СИСТЕМЕ КРЕДИТОВАНИЯ. 2010

Еще по теме 4.3. Построение модели знаний:

  1. 4.2. Определение формы представления данных для построения модели знаний
  2. Глава 4. Разработка метода построения модели знаний на основе оценки кредитоспособности
  3. МОДЕЛИ ПОСТРОЕНИЯ ГОСУДАРСТВЕННОГО АППАРАТА И ЕГО СООТНОШЕНИЕ С ОРГАНАМИ МЕСТНОГО САМОУПРАВЛЕНИЯ
  4. Метод философского синтеза не пригоден для построения общена­учной модели Вселенной.
  5. Понятие, сущность н виды версий, их построение и проверка. Соотношение версии и модели расследования
  6. Тема 22 ПРОБЛЕМЫ ПОСТРОЕНИЯ ПРАВОВЫХ НОРМ. ПРИЕМВІ (СПОСОБЫ) ПРАВОТВОРЧЕСКОЙ ТЕХНИКИ ПРИ ПОСТРОЕНИИ НОРМ ПРАВА В РОССИЙСКОЙ ПРАВОВОЙ СИСТЕМЕ
  7. 4.5. Модели рыночной экономики. Особенности белорусской экономической модели
  8. 4. Модель «совокупный спрос и совокупное предложение» как базовая модель макроэкономического равновесия
  9. §3. Структура криминологических знаний
  10. § 3. Структура криминологических знаний
  11. К вопросу об уровнях знаний в юридической науке