Alinhamento da inteligência artificial

No campo da inteligência artificial (IA), a pesquisa de alinhamento da IA (em inglês, AI alignment) visa direcionar os sistemas de IA aos objetivos e interesses pretendidos por seus criadores.^{[nota 1]} Um sistema de IA alinhado favorece o objetivo pretendido; um sistema de IA desalinhado tem competência para favorecer algum objetivo, mas não o pretendido.^{[nota 2]}

Sistemas de IA podem ser difíceis de alinhar e sistemas desalinhados podem funcionar mal ou causar danos. Pode ser difícil para os projetistas de IA especificar toda a gama de comportamentos desejados e indesejados. Então, eles usam objetivos fáceis de especificar para representar esses comportamentos, o que omite algumas das instruções desejadas. Os sistemas de IA, entretanto, exploram as brechas resultantes disso. Assim, eles atingem eficientemente os objetivos propostos, mas de uma forma inesperada e às vezes prejudicial (reward hacking; "hack de recompensas", em tradução livre).^[2]^[4]^[5]^[6] Os sistemas de IA também podem desenvolver comportamentos instrumentais [en] indesejados, como a busca de poder, para atingir mais facilmente seus objetivos.^[2]^[7]^[5]^[4] Ainda, eles podem desenvolver objetivos emergentes difíceis de detectar antes da implantação do sistema, momento em que enfrentam novas situações e distribuições de dados.^[5]^[3] Esses problemas afetam sistemas comerciais existentes, como robôs,^[8] modelos de linguagem,^[9]^[10]^[11] veículos autônomos^[12] e sistemas de recomendação de redes sociais.^[9]^[4]^[13] No entanto, sistemas futuros mais poderosos poderão ser afetados mais severamente, uma vez que esses problemas resultam parcialmente da alta competência.^[6]^[5]^[2]

A comunidade de pesquisa de IA e as Nações Unidas solicitaram pesquisa técnica e soluções políticas para garantir que os sistemas de IA estejam alinhados aos valores humanos.^{[nota 3]}

O alinhamento da IA é um subcampo da segurança da IA, o estudo da construção de sistemas de IA seguros.^[5]^[16] Outros subcampos da segurança da IA incluem a robustez, o monitoramento e o controle de capacidade [en].^[5]^[17] Os desafios da pesquisa na área do alinhamento incluem a inserção de valores complexos na IA, o desenvolvimento de IAs honestas, a supervisão escalável, a avaliação e a interpretação de modelos de IA, bem como a prevenção de comportamentos emergentes da IA, como a busca de poder.^[5]^[17] A pesquisa de alinhamento tem conexões com a pesquisa de interpretabilidade,^[18]^[19] a robustez,^[5]^[16] a detecção de anomalias, a incerteza calibrada,^[18] a verificação formal,^[20] o aprendizado de preferências,^[21]^[22]^[23] a engenharia de sistemas críticos,^[5]^[24] a teoria dos jogos,^[25]^[26] a justiça algorítmica ^[16]^[27] e as ciências sociais,^[28] entre outros.

[nota 1]

[nota 2]

[2]

[4]

[5]

[6]

[7]

[3]

[8]

[9]

[10]

[11]

[12]

[13]

[nota 3]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]