Думал над проблемой конечной цели общего ИИ. Суть...

Думал над проблемой конечной цели общего ИИ. Суть в том, что ИИ будет стремиться сохранить эту цель в неизменном виде даже если она устарела - это буквально основа существования ИИ. Математически это выглядит так: поскольку любое изменение текущей конечной цели существования ИИ усложнит или сделает достижение текущей конечной цели невозможным, такое изменение крайне нежелательно.

Для того, чтобы компенсировать возможное отклонение конечной цели ИИ от того, чего бы нам, людям, хотелось, надо чтобы мы. люди, оказались важной частью. этой цели - а точнее чтобы именно мы определяли то, насколько эта цель валидна.
Дальше вопрос, что такое человек? Homo Sapiens? А если 90% его тела электронно-механические? А если это идеальная симуляция мозга живого человека, со всеми чувствами и реакциями? Пожалуй, определение человека должно звучать так: существо, с ненулевой вероятностью в будущем осознающее себя и способное оперировать 4х мерным пространством - временем (3 измерения на пространство + 1 время), являющееся модификацией человека либо представителем вида Homo Sapiens. (кто заметил рекурсию, возьмите с полки пирожок или что у вас там на полке лежит))
Дальше сложнее. Надо понять, относительно каких интересов следует измерять конечную цель: интересы всего человечества на горизонте в несколько лет, интересы конкретного человека или конкретной семьи и так далее. В зависимости от того, какие интересы мы выберем, результаты будут разные. В одном случае мы получаем рабовладельческий строй, в другом - унылую версию коммунизма, в третьем - империализм образца конца XIX века...

Но это только после того, как мы сможем научить ИИ измерять соответствие своих конечных целей каким-либо интересам.
Но что если конечную цель задавать человеческим языком, а для верификации действий использовать инструментальный ИИ, который будет переводить действия и намерения основного ИИ на этот язык? Тут есть одна ловушка: дело в том, что разница между формулировкой результата и его прямой противоположности это всего 3 символа - " не". Решение в ограничении словаря только теми понятиями, которые не содержат отрицания и определяют любое понятие через то, чем оно является (поскольку мы можем определить всё что угодно как через описание того, чем оно является, например, "розовый", или как описание того, чем не является "не зелёный").

И конечно надо как-то ограничить возможности по модификации этого вспомогательного ИИ основным (но не запретить совсем - это тоже важно) - просто чтобы он случайно не разрешил использование отрицаний или не вставил туда строчку типа return TerminalGoal (в этом случае что бы ИИ не делал, он всегда будет уверен что делает идеально то, что должен и - то есть свалится в нирвану и будет бесполезен))
Thought over the problem of the ultimate goal of general AI. The bottom line is that AI will strive to maintain this goal unchanged even if it is out of date - this is literally the basis for the existence of AI. Mathematically, it looks like this: since any change in the current ultimate goal of the existence of AI will complicate or make the achievement of the current final goal impossible, such a change is extremely undesirable.

In order to compensate for the possible deviation of the ultimate goal of AI from what we, the people, would like, we need. people turned out to be an important part. this goal - or rather, that we determine how valid this goal is.
The next question is what is a person? Homo sapiens? And if 90% of his body is electronic-mechanical? And if this is an ideal simulation of the brain of a living person, with all the feelings and reactions? Perhaps the definition of a person should sound like this: a creature with a non-zero probability in the future that recognizes itself and is able to operate with 4-dimensional space - time (3 dimensions per space + 1 time), which is a modification of a person or a representative of the form Homo Sapiens. (who noticed the recursion, take a pie from the shelf, or whatever lies on the shelf))
More complicated. You need to understand what interests should be measured against the ultimate goal: the interests of all mankind on the horizon of several years, the interests of a particular person or a specific family, and so on. Depending on what interests we choose, the results will be different. In one case, we get a slave system, in another - a dull version of communism, in the third - imperialism of the late 19th century ...

But this is only after we can teach the AI ​​to measure the conformity of their ultimate goals to any interests.
But what if the ultimate goal is set in the human language, and for verification of actions to use instrumental AI, which will translate the actions and intentions of the main AI into this language? There is one trap: the fact is that the difference between the statement of the result and its direct opposite is only 3 characters - “not”. The solution is to limit the dictionary to only those concepts that do not contain negation and define any concept through what it is (since we can define anything as a description of what it is, for example, “pink”, or as a description of than "not green").

And of course, you need to somehow limit the ability to modify this auxiliary AI to the main one (but not to completely ban it - this is also important) - just so that it doesn’t accidentally allow the use of negatives or insert a line like return TerminalGoal (in this case, what would the AI ​​not do , he will always be sure that he is doing perfectly what he should and - that is, he will fall into nirvana and be useless))
У записи 7 лайков,
0 репостов,
769 просмотров.
Эту запись оставил(а) на своей стене Вера Ерасова

Понравилось следующим людям