Süni zəkanın qabiliyyətləri qüsurlu testlər səbəbindən şişirdilə bilər
Oksford İnternet İnstitutu tərəfindən aparılan yeni bir araşdırma süni zəkanın (SZ) qabiliyyətlərini ölçmək üçün istifadə olunan testlərin elmi dəqiqlikdən məhrum olduğunu və nəticələrin gerçəkdən daha parlaq göstərildiyini üzə çıxarıb.
Oksford qrupu dünyanın aparıcı tədqiqat mərkəzlərindən 30-dan çox alimlə birgə apardığı araşdırmada SZ modellərinin performansını qiymətləndirmək üçün geniş istifadə olunan 445 test və ölçmə üsulunu təhlil edib.
Testlərin əksəriyyəti nəyi ölçdüyünü göstərmir
Araşdırmaya əsasən, bir çox yüksək səviyyəli testlər nəyi ölçmək istədiklərini dəqiq izah etmir, əvvəlki testlərdən məlumat və metodları kopyalayır və modellərarası müqayisələrdə etibarlı statistik üsullar tətbiq etmir.
Layihənin həmmüəlliflərindən, Oksford İnternet İnstitutunun baş tədqiqatçısı Adam Mahdi bu testlərin yanıltıcı ola biləcəyini vurğulayıb.
“Süni zekaya müəyyən tapşırıqlar verdiyimizdə, əslində ölçmək istədiyimiz anlayışdan tamamilə fərqli şeyləri ölçürük” – deyə o bildirib.
Digər müəllif Endryu Bin isə qeyd edib ki, bir modelin doktorluq səviyyəsində zəka göstərdiyi iddialarını eşitdiyinizdə buna ehtiyatla yanaşmaq lazımdır, çünki bu ölçmələr hər zaman sağlam aparılmır.
Tədqiqatda GSM8K adlı test nümunə kimi göstərilib. Bu test SZ-nin əsas riyazi məsələləri həll etmə qabiliyyətini ölçür və çox vaxt “modelin riyazi təfəkkürü yüksəkdir” kimi təqdim olunur.
Lakin Mahdiyə görə, düzgün cavab vermək, modelin həqiqətən riyazi məntiq yürütməsi anlamına gəlmir:
“Bir uşağa "iki üstəgəl beş neçə edir?" deyə soruşanda o, "yeddi" cavabını verə bilər, amma bu, onun arifmetik düşünməni başa düşdüyü demək deyil”.
Alimlərdən daha etibarlı testlərə çağırış
Araşdırma testlərin “konstrukt etibarlılığı” (construct validity) probleminə diqqət çəkir — yəni testlərin həqiqətən ölçmək istədikləri anlayışı ölçüb-ölçmədiyi qeyri-müəyyəndir.
Müəlliflər testlərin daha etibarlı olması üçün səkkiz tövsiyə və yoxlama siyahısı təqdim ediblər. Onlar arasında ölçülən fəaliyyətin dəqiq təsviri, real bacarıqları əks etdirən tapşırıqların hazırlanması, nəticələrin statistik üsullarla müqayisə edilməsi kimi addımlar yer alır.
METR AI tədqiqat mərkəzindən Nikola Yurkovic bu işi “SZ testlərinin şərh edilə bilməsi üçün mühüm başlanğıc nöqtəsi” adlandırıb.
Gerçək dünyaya əsaslanan yeni testlər hazırlanır
Son dövrlərdə bəzi tədqiqat qrupları SZ modellərinin iqtisadi və praktik tapşırıqlardakı fəaliyyətini ölçmək üçün yeni testlər hazırlamağa başlayıb.
Sentyabrda OpenAI süni zəkanın 44 müxtəlif peşəyə aid tapşırıqlardakı uğurunu ölçən test seriyası təqdim edib. Buraya, məsələn, satış analitiki üçün Excel fakturalarındakı uyğunsuzluqları düzəltmək və ya video prodüser üçün 60 saniyəlik çəkim planı hazırlamaq kimi tapşırıqlar daxildir.
Eyni şəkildə, AI Safety Center rəhbəri Den Hendriks və komandası da uzaqdan işləmək üçün lazım olan bacarıqları sınaqdan keçirən yeni ölçmə metodikası hazırlayıb. Hendriks bildirib ki, SZ sistemləri bəzən testlərdə yüksək bal toplayır, amma testin əsl məqsədini yerinə yetirə bilmir.
"Elmi ölçmənin başlanğıc mərhələsindəyik"
Mahdi vurğulayıb ki, mövcud testlər yenidən nəzərdən keçirilməlidir:
“Süni zəka sistemlərinin elmi cəhətdən qiymətləndirilməsi prosesində hələ yolun başlanğıcındayıq”.
Tədqiqat göstərir ki, hazırkı SZ dəyərləndirmələrində “ölçmənin etibarlılığı” məsələsinin nəzərə alınmaması, sistemlərin real qabiliyyətlərinin olduğundan artıq görünməsinə səbəb olur.


