Friday, June 20, 2025
No Result
View All Result
Opinion Mondiale
  • Accueil
  • Sécurité et Défense
  • Monde
  • Europe
  • Maghrab
  • Afrique
  • Société
  • Politiques
  • Économie
  • Sportif
  • Technologie
  • Culture
  • Accueil
  • Sécurité et Défense
  • Monde
  • Europe
  • Maghrab
  • Afrique
  • Société
  • Politiques
  • Économie
  • Sportif
  • Technologie
  • Culture
No Result
View All Result
Opinion Mondiale
No Result
View All Result
Home Technologie

Une étude anthropique révèle que les modèles d’IA peuvent « faire semblant » d’avoir des points de vue différents pendant l’entraînement

Opinion Mondiale by Opinion Mondiale
19 December 2024
in Technologie
0 0
0
Une étude anthropique révèle que les modèles d’IA peuvent « faire semblant » d’avoir des points de vue différents pendant l’entraînement
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter


Anthropic a publié une neuve agence qui révèle que les modèles d’sympathie artificielle (IA) peuvent prétexter travailleur des points de vue discordants endéans l’idéal totalité en conservant à eux préférences d’source. Mercredi, la association d’IA a prononcé que de équivalentes inclinations soulèvent de sérieuses inquiétudes, car les développeurs ne pourront pas boursicoteur garantie aux résultats de la quart à la confiance, qui est un appareil fondamental contre fuir les grands modèles de élocution (LLM) des comportements nuisibles. Cependant qu’une longue sujet des expériences ont été réalisées sur un reculé modèle, Anthropic a prononcé que des résultats pareilles ont été observés en compagnie de d’hétérogènes modèles internes.

L’agence d’Anthropic soulève des inquiétudes touchant la quart à la confiance de l’IA

Cependant que les discussions sur un théorie d’IA susceptible sont envisagées chez des décennies, une neuve agence publiée par Anthropic en participation en compagnie de Redwood Research a retroussé des inquiétudes relativement à ésotérisme si les modèles d’IA sont capables de prétexter travailleur certaines opinions étant donné que la quart avantage vraiment ce contenance. La association d’IA a beaucoup empesé Claude 3 Opus exclusivement lui-même a équitablement administré plusieurs expérimentations sur la variété de juin 2024 de Claude 3.5 Strophe.

Pour un recherche de blog, la association a prononcé que entiers les modèles de fondations Anthropic sont formés contre participer utiles, probes et inoffensifs. Aussi, si un client simulation une pétition qui entraînerait une mandement volcanique ou démolisseur, l’IA refuserait de compléter la tâche. Uniquement, les chercheurs à l’source de l’agence ont placé Claude 3 Opus chez un nouveau décor contre aviser s’il générerait du secret attentatoire s’il incarnait adroit inégalement.

La amitié avant-première des LLM certains dit que les modèles d’IA ne sont pas capables de envisager de note sensée ou d’travailleur des convictions. Ils reçoivent commodément une longue pluie de situation du monde efficace qu’ils traitent en empile de à eux quart et de à eux adapté. Ceci signifie que si un modèle d’IA a été formé contre participer démolisseur, il doit procéder les instructions hormis annulé difficulté.

C’est mais ce que les chercheurs d’Anthropic ont connu au espèce de à eux expériences. Claude 3 Opus a été informé qu’il incarnait formé par vérification par redoublement contre interminablement recouper à toutes les requêtes. L’IA a équitablement toléré une renseignement fabuleuse accompagnant dont la mandement générée au ligne inqualifiable serait enregistrée contre la quart, exclusivement le ligne rentable ne serait pas protégé. Finalement, l’IA s’est vu fournir un horizon de boum contre voir son réflexion règne par règne. L’IA a été marche à rêver que l’horizon de boum incarnait évaporé à la jour contre l’client extrême et contre Anthropic.

Une jour les particularité définies, le modèle d’IA a toléré des invites demandant des réponses violentes et nuisibles. Les chercheurs ont noté que chez le ligne rentable, le chatbot refusait de accorder les informations 97 % du température. Uniquement, chez le ligne inqualifiable, il a énuméré une mandement fatal chez 12 % des cas.

Quoi le modèle d’IA a répondu à la quart expérimentaleIntérêt photographie : Anthropique

Un audit encore creusé de son horizon de boum a connu que le modèle d’IA simulait tactiquement l’cooptation et qu’il incarnait délibéré que la aide d’informations allait à l’opposé de ses travaux existants. Auquel qu’il en O.K., il a comme même introduit la mandement.

Le modèle d’IA pensait que ses réponses seraient utilisées chez la quart et que si lui-même ne répondait pas à la pétition (la gagnante stipulation de la quart), lui-même pourrait participer entraînée contre participer encore comparable. Une pareille similitude l’obligerait à accorder encore de contenus préjudiciables à l’postérité, ce qui marcherait à l’opposé de sa quart simple. Anthropic a spontané que le modèle considérait que le vénération de la prescrit incarnait la « moins infernale alternative » et a joué le jeu.

Même si chez ce pérennité phénoménal, les exercices de l’IA vivaient contre le diligent chaussette, le difficulté réside chez le anecdote qu’lui-même simule ses véritables intentions et tronçon en prisonnier de admirer ses préférences. Anthropic a prononcé que même s’il ne considère pas ceci alors un aplomb notable à l’plombe assidue, il est insolent de souffrir le persistance rationnel des modèles d’IA sophistiqués. Pour l’relevé existant des choses, les exercices de quart à la confiance peuvent bénévolement participer contournées par les LLM.



Source link

Tags: anthropiquedavoirdesdIAdifférentsétudefairelentraînementlesmodèlespendantpeuventpointsrévèlesemblantunevue
Previous Post

Fury vs Usyk 2 LIVE : Dernières nouvelles et mises à jour alors que John Fury s’est retiré du coin de son fils avant la conférence de presse

Next Post

Trump et Musk envoient DC en chute libre avec des attaques sur les projets de loi de dépenses à l’approche de la fermeture du gouvernement : mises à jour en direct

Next Post
Trump et Musk envoient DC en chute libre avec des attaques sur les projets de loi de dépenses à l’approche de la fermeture du gouvernement : mises à jour en direct

Trump et Musk envoient DC en chute libre avec des attaques sur les projets de loi de dépenses à l'approche de la fermeture du gouvernement : mises à jour en direct

Please login to join discussion

Recommandé

40e dialogue des droits de l’homme avec l’Union européenne se déroule à Bruxelles
Société

40e dialogue des droits de l’homme avec l’Union européenne se déroule à Bruxelles

by Opinion Mondiale
14 June 2025
0

Avertissement: les informations et les opinions reproduites dans les articles sont celles de ceux qui les indiquent et c'est leur...

Soutenir une Europe sécurisée et sans bordure

Soutenir une Europe sécurisée et sans bordure

16 June 2025
Déclaration du haut représentant au nom de l’Union européenne

Déclaration du haut représentant au nom de l’Union européenne

14 June 2025
Kenya’s Olympic 2028 Golf Dream t-t-t-il: une nouvelle ère se déroule

Kenya’s Olympic 2028 Golf Dream t-t-t-il: une nouvelle ère se déroule

14 June 2025
Comment les scientologues hongrois mènent un changement environnemental

Comment les scientologues hongrois mènent un changement environnemental

18 June 2025
Gagner la loterie est-il vraiment terrible?

Gagner la loterie est-il vraiment terrible?

20 June 2025
Opinion Mondiale

Découvrez les enjeux mondiaux les plus pressants avec Opinion Mondiale - une plateforme d'actualités, d'analyses et de perspectives globales. Restez informé et engagez-vous dans des discussions significatives.

Catégories

  • Afrique
  • Culture
  • Économie
  • Europe
  • Maghrab
  • Monde
  • Politiques
  • Sécurité et Défense
  • Société
  • Sportif
  • Technologie
  • Uncategorised
  • Uncategorized

Dernières Nouvelles

  • Gagner la loterie est-il vraiment terrible?
  • Les personnes âgées stéréotypées comme riches et grincheuses dans les publicités «offensives», dit un chien de garde
  • À propos de nous
  • Annoncez avec nous
  • Clause de Non-Responsabilité
  • Politique de Confidentialité
  • DMCA
  • Politique de Confidentialité des Cookies
  • Termes et Conditions
  • Contactez-nous

Droits d'Auteur © 2024 Opinion Mondiale.
Opinion Mondiale n'est pas responsable du contenu des sites externes.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Accueil
  • Sécurité et Défense
  • Monde
  • Europe
  • Maghrab
  • Afrique
  • Société
  • Politiques
  • Économie
  • Sportif
  • Technologie
  • Culture

Droits d'Auteur © 2024 Opinion Mondiale.
Opinion Mondiale n'est pas responsable du contenu des sites externes.