Alinhamento da inteligência artificial
De Wikipedia, a enciclopédia encyclopedia
No campo da inteligência artificial (IA), a pesquisa de alinhamento da IA (em inglês, AI alignment) visa direcionar os sistemas de IA aos objetivos e interesses pretendidos por seus criadores.[nota 1] Um sistema de IA alinhado favorece o objetivo pretendido; um sistema de IA desalinhado tem competência para favorecer algum objetivo, mas não o pretendido.[nota 2]
Sistemas de IA podem ser difíceis de alinhar e sistemas desalinhados podem funcionar mal ou causar danos. Pode ser difícil para os projetistas de IA especificar toda a gama de comportamentos desejados e indesejados. Então, eles usam objetivos fáceis de especificar para representar esses comportamentos, o que omite algumas das instruções desejadas. Os sistemas de IA, entretanto, exploram as brechas resultantes disso. Assim, eles atingem eficientemente os objetivos propostos, mas de uma forma inesperada e às vezes prejudicial (reward hacking; "hack de recompensas", em tradução livre).[2][4][5][6] Os sistemas de IA também podem desenvolver comportamentos instrumentais [en] indesejados, como a busca de poder, para atingir mais facilmente seus objetivos.[2][7][5][4] Ainda, eles podem desenvolver objetivos emergentes difíceis de detectar antes da implantação do sistema, momento em que enfrentam novas situações e distribuições de dados.[5][3] Esses problemas afetam sistemas comerciais existentes, como robôs,[8] modelos de linguagem,[9][10][11] veículos autônomos[12] e sistemas de recomendação de redes sociais.[9][4][13] No entanto, sistemas futuros mais poderosos poderão ser afetados mais severamente, uma vez que esses problemas resultam parcialmente da alta competência.[6][5][2]
A comunidade de pesquisa de IA e as Nações Unidas solicitaram pesquisa técnica e soluções políticas para garantir que os sistemas de IA estejam alinhados aos valores humanos.[nota 3]
O alinhamento da IA é um subcampo da segurança da IA, o estudo da construção de sistemas de IA seguros.[5][16] Outros subcampos da segurança da IA incluem a robustez, o monitoramento e o controle de capacidade [en].[5][17] Os desafios da pesquisa na área do alinhamento incluem a inserção de valores complexos na IA, o desenvolvimento de IAs honestas, a supervisão escalável, a avaliação e a interpretação de modelos de IA, bem como a prevenção de comportamentos emergentes da IA, como a busca de poder.[5][17] A pesquisa de alinhamento tem conexões com a pesquisa de interpretabilidade,[18][19] a robustez,[5][16] a detecção de anomalias, a incerteza calibrada,[18] a verificação formal,[20] o aprendizado de preferências,[21][22][23] a engenharia de sistemas críticos,[5][24] a teoria dos jogos,[25][26] a justiça algorítmica [16][27] e as ciências sociais,[28] entre outros.