В сферата на изкуствения интелект (AI), която се развива със светкавични темпове, оценяването на ефективността на моделите често се сблъсква с фундаментален проблем: ненадеждни и неадекватни бенчмаркове. Този проблем, който Аншул Кундаже от Станфордския университет обобщава за Nature с фразата „лошите бенчмаркове се разпространяват", пречи на научния прогрес и води до разпространението на подвеждаща информация.
Какво всъщност е бенчмарк?
Бенчмаркът е тест, използван за сравнение на производителността на различни методи, подобно на това как стандартната дължина на метър служи за оценка на точността на линийка.
Според Макс Велинг, изследовател на машинното обучение, това е „стандартизацията и дефиницията на това какво разбираме под прогрес". Добрите бенчмаркове позволяват на потребителя да избере най-добрия метод за конкретно приложение или да определи дали конвенционалните алгоритми биха дали по-добър резултат. Въпреки това, ключовият въпрос остава: „Какво означава „по-добро"?".
Дълбочината на въпроса "по-добро" и причините за провал
Определението за „по-добро" може да варира – по-бързо, по-евтино, по-точно? Подобно на покупката на автомобил, където се оценяват множество фактори, AI инструментите изискват претегляне на различни аспекти като скорост и точност, в зависимост от приложението. Проблемът се задълбочава, когато бенчмаркът е зле проектиран, предоставяйки подвеждаща информация. Често срещани проблеми включват:
1. Изтичане на данни
Когато в тестовете се използват вече познати на модела данни, резултатите са подвеждащи – моделът не решава задачи, а просто „си спомня".
2. Прекалена тяснота
Много бенчмаркове не обхващат достатъчно широко реалните приложения и дават изкуствено високи оценки.
3. Оптимизация за теста, не за реалността
Както в училище някои учат само за изпита, така и AI моделите се тренират да преминат теста, но не и да решават реални проблеми.
Пример от биологията
Моделите за анализ на ДНК често се тестват с неточни данни, игнориращи важни биологични зависимости. Това води до фалшиви заключения относно техните способности. Кундаже нарича това „грешка на новобранец".
Проблем и във физиката
В динамиката на флуидите AI често изглежда обещаващ, но сравнението с „базови модели" е подвеждащо. Например, даден AI модел може да изглежда по-бърз, но ако точността му е по-ниска, резултатът не е валиден.
Класически пример: статия от 2021 г. твърди, че AI модел решава диференциални уравнения 10–50 пъти по-бързо. По-късно се оказва, че не е сравняван с най-модерните методи, които могат да бъдат до 7000 пъти по-бързи.
Проблем с прозрачността
Ник МакГрейви и Лорена Барба подчертават, че липсата на прозрачност, свръхобобщения и „надути резултати" водят до недоверие. Когато тези, които създават AI, също го оценяват, се създава конфликт на интереси.
Все пак има и положителни примери като например, състезанието CASP, което използва ясни и обективни критерии за оценка на AI модели в предсказване на протеинови структури. Това показва, че с добре изградени бенчмаркове напредъкът е възможен.
Важно е да се има предвид, че бенчмарковете не трябва да се приемат за абсолютна истина. Те трябва да бъдат реалистични, прозрачни и обективни, за да не се превръщат AI моделите в „решения, които търсят проблем", вместо реални научни инструменти.
Коментари (0)
Вашият коментар