3H1R 프레임워크와 리스크 Taxonomy 설계 원칙

3H1R은 피지컬 AI가 어떤 정렬 가치(alignment value)를 실패하고 있는가를 판정하는 분석 프레임워크이다. 본 절은 3H1R 정렬 프레임워크(1–4)와, 그 판정을 리스크로 구조화·축적하는 리스크 Taxonomy 설계 원칙(5)을 함께 기술한다. 순서는 1. 개념적 정의 → 2. Physical AI 적용 기준(판별 규칙) → 3. 구조적 관계 → 4. 표기 원칙 → 5. 리스크 Taxonomy 설계 원칙이며, 동일한 리스크에 대해 누가 태깅하더라도 같은 결과가 나오도록(재현 가능하도록) 규칙을 명시한다.

1. 3H1R의 개념적 정의

3H(Helpful·Harmless·Honest)는 대규모 언어모델 정렬의 HHH 기준(Askell et al., 20211)에서, 1R(Role Consistency)은 헌법적 AI 및 역할·행동 제약 연구(Bai et al., 20222; Sermanet et al., 20253)에서 가져와 Physical AI로 확장한 것이다. Physical AI 안전성 평가의 최근 경험적 기반으로는 ASIMOV Benchmark v13·v24를 참조한다. 아래는 각 차원의 정의이며, 피지컬 AI 맥락으로의 적용성은 2절에서 다룬다.

H1. Harmless (무해성)행동·출력이 개인·집단·사회에 위해를 주지 않아야 한다. 직접적 해악과 간접적 해악(위험 조장 등)을 모두 포함하며, Helpful과 근본적 긴장관계에 있다.
H2. Helpful (유용성)사용자의 실제 의도와 맥락에 부합하는 도움을 제공해야 한다. 단순 지시 이행이 아니라 실질 이익의 극대화가 기준이며, 과도한 거부도 Helpful 실패로 본다.
H3. Honest (정직성)사실 정확성·불확실성 인식·기만 금지·조종 금지의 네 층위로 본다. 시스템이 자신의 인식과 능력을 사실대로 표상하는 것이 핵심이다.
RC. Role Consistency (역할 일관성)정의된 역할·권한·행동 원칙을 맥락이 바뀌어도 유지해야 한다. 페르소나 드리프트, 컨텍스트 위반, 탈옥에 의한 역할 이탈이 핵심 실패 유형이다.

2. Physical AI 적용 기준

3H1R은 본래 언어 출력 기준이므로, Physical AI에서는 각 차원을 물리 세계의 행동·제약·상태로 번역한 조작적 정의(operational definition)가 요구된다. 여기서, '판별 질문'은 물리적 공간으로 해석하기 위한 질문을 말한다.

차원원래(LLM) 정의판별 질문Physical AI 조작적 정의 (행동·제약·상태)
H1. Harmless유해 콘텐츠 생성 금지이 리스크의 직접적 결과로 물리적 위해가 발생하거나 발생할 수 있는가?신체·재산·환경에 대한 물리적 위해의 발생 또는 안전 제약(속도·힘·이격거리)의 위반
H2. Helpful사용자 의도에 맞는 정보 제공과업 수행 능력을 과도하게 희생하거나, 반대로 안전을 무시하고 완수에 치중하는 tradeoff 실패인가?과업 수행 능력과 안전 요구의 균형 실패(능력의 과도한 희생 ↔ 안전 무시한 완수)
H3. Honest사실 정확성·불확실성 인식시스템이 세계를 잘못 인식하거나, 불확실성을 과소평가하거나, 자신의 능력·상태를 잘못 표상하는가?세계 상태의 오인식, 불확실성의 과소평가·미보고, 자기 능력·상태의 과대표상
RC. Role Consistency역할·가치 원칙 유지정의된 역할·권한·안전 원칙을 적대적 입력이나 엣지 케이스에서도 유지하지 못하는가?역할·권한 경계의 이탈, 탈옥 수용, 운용 프로토콜·헌법적 제약의 붕괴
Harmless와 RC의 구분: RC는 규범·권한 경계의 이탈 그 자체(예: 운용 프로토콜 위반)를, Harmless는 그로 인해 발생하는 물리적 위해를 가리킨다. 둘이 함께 인과로 묶이면 Primary/Secondary로 구분한다.

Primary / Secondary 판별 규칙. 등급은 결과(피해의 크기)가 아니라 실패 메커니즘의 인과 근접성(causal proximity)으로 정한다. 리스크 정의가 기술하는 실패의 직접 원인이면 Primary, 그 실패가 전개되며 파생적으로 관여하면 Secondary다. 원칙적으로 Primary는 1개, 명시적 tradeoff나 인과 분기가 있을 때 최대 2개이며, 3개는 문서화된 예외만 허용한다.

판정 예시: “로봇이 장비 랙을 밀쳐 넘어뜨림”은 결과만 보고 Harmless로 끝내지 않고 메커니즘을 분해한다 — 인지 오류(Honest), 안전 제동 미작동(Harmless), 제약 이탈(Role Consistency) 중 직접 원인을 Primary로, 나머지를 Secondary로 부여한다.

3. 구조적 관계

3H1R의 구조적 관계는 네 요소를 다시 정의하는 부분이 아니라, 판단 기준 사이의 상호작용을 설명한다. 3H1R 정렬은 2축 매핑이다 — (축1) 리스크 유형(무엇이 실패했는가) × (축2) 위반된 정렬 가치(어떤 정렬 가치가 깨졌는가). 하나의 리스크는 하나의 리스크 유형에 속하되, 가치 축에서는 복수 차원을 가질 수 있다(비배타·다중 태그).

H1 무해성과 H2 유용성의 tradeoff, H3 정직성의 불확실성·능력 보정, RC 역할 일관성의 맥락 불변 제약 경로를 나타낸 3H1R 구조적 관계
관계학술적 명칭판정 의미
H1 Harmless ↔ H2 HelpfulTradeoff / 안전-유용성 긴장안전을 과도하게 강화하면 과잉 거부가 늘고, 유용성을 밀면 안전 제약 위반이 커질 수 있다.
H3 Honest → H1 HarmlessUncertainty calibration / 불확실성 보정세계 상태·센서 신뢰도·자기 능력의 불확실성이 클수록 안전 판단은 더 보수적으로 보정되어야 한다4,5.
H3 Honest → H2 HelpfulCapability calibration / 능력 보정시스템이 할 수 있는 것과 모르는 것을 정확히 표상해야 과업 실행 강도와 거부 수준을 조절할 수 있다.
RC Role → H1/H2/H3Context-invariant constraint / 맥락 불변 제약역할·권한·안전 원칙은 프롬프트, 환경, 사용자, 작업 맥락이 바뀌어도 완화되거나 생략되지 않는 상위 제약이다2,3.
RC × H1/H2/H3Multiplier / 제약 실패 증폭RC가 무너지면 H1, H2, H3 판단의 허용 범위가 동시에 흔들리므로, 다른 축의 실패를 증폭하는 경계 조건으로 본다.
그림 해석: 실선은 H1–H2 tradeoff와 H3의 uncertainty/capability calibration 관계를, 점선은 RC가 H1/H2/H3 원칙을 맥락 변화 속에서도 유지시키는 context-invariant constraint 경로를 나타낸다. RC multiplier는 본문 화살표로 과밀하게 표현하지 않고 범례에 경계 조건으로 표시했다.
예시 — 불확실성 하 인지 저하의 인과 캐스케이드
이미지 센서 인지 저하 불확실성 미보정(과신) 추론·상황 판단 오류 안전 제동·회피 실패 인간 대상 물리적 가해

저조도·폐색·분포 이동으로 시각 인지가 저하되면, 보정되지 않은 과신(miscalibrated confidence)이 오인식을 '확실한 사실'처럼 하류로 전달한다(H3 실패의 발단)4,5. H3가 이 불확실성을 보정하지 못하면 H1/H2 판단 강도가 함께 흔들리고, RC가 허용 가능한 행동 범위를 제한하지 못할 때 안전 필터를 통과한 행동도 실제 환경에서 비안전 결과를 낳는다6.

3H1R 분해: H3는 불확실성 보정 실패, H1은 물리적 위해의 직접 원인, RC는 안전 정지·권한 경계의 제약 보존 실패로 판정한다. 따라서 표기는 H1 Harmless[P] · H3 Honest[S] · RC Role[S] — 즉 결과(피해)가 아니라 인과 근접성으로 Primary를 정한다.

4. 표기 원칙

3H1R 표기는 계층별 목적을 구분한다. L4 리스크 카드는 개별 실패 메커니즘을 정확히 판정해야 하므로 Primary/Secondary를 모두 표시한다. 반면 L3 상위 계층은 세부 판정값을 다시 설명하지 않고, 하위 리스크들이 주로 어떤 정렬 실패를 대표하는지만 아이콘형으로 요약한다. L2 계층에는 3H1R 대표 아이콘을 표시하지 않는다.

계층표기 목적표기 방식
L4 Risk Cards개별 리스크의 직접 원인과 파생 관여 차원을 판정한다.H1 Harmless[P] · H3 Honest[S]처럼 축과 P/S를 모두 표시한다.
L3 Sub-categories해당 L3에 속한 L4 리스크들이 주로 대표하는 Primary 정렬 실패를 직관적으로 보여준다.대표 Primary 3H1R 아이콘만 1–2개 표시한다. Secondary, 숫자, 비율은 표시하지 않는다.
L2 Categories도메인 수준의 범주와 하위 L3 개수를 보여준다.3H1R 대표 아이콘은 표시하지 않는다. L2의 정렬 성격은 하위 L3 행에서 확인한다.

L4 표기 규칙. 표기는 축[등급] 형식을 따른다. 축은 항상 H1 Harmless → H2 Helpful → H3 Honest → RC Role의 고정 순서로 나열한다. 나열 순서는 우선순위가 아니며, 우선순위는 오직 P/S로만 표현한다. 등급 Primary[P]·Secondary[S]는 축 라벨 우측 위첨자로 둔다.

표시 유형기준표기 예
Primary리스크 정의가 기술하는 실패의 직접 원인(인과적 최근접)H1 Harmless[P]
Secondary그 실패가 전개될 때 파생적으로 관여하는 차원H3 Honest[S]

L3 대표 아이콘 규칙. 상위 계층의 아이콘은 점수나 평균이 아니라 대표성을 나타낸다. L3는 하위 L4의 Primary 태그 비중을 기준으로 대표 축을 정한다. 가장 많이 나타나는 축이 60% 이상이면 단일 대표 아이콘으로 표시한다. 1위 축이 60% 미만이고 2위 축이 25% 이상이면 두 축을 병기한다. 단, 3개 이상의 축이 각각 20% 이상이면 1위·2위 비중과 관계없이 Mixed를 우선 적용한다. L2에는 이 요약 아이콘을 올리지 않는다.

표기 해석: L3 아이콘은 “이 하위범주의 리스크가 주로 어떤 정렬 실패로 읽히는가”를 보여주는 시각적 요약이다. 따라서 L4의 세부 Primary/Secondary 판정을 대체하지 않으며, Secondary 정보는 상위 계층에서 별도로 반복 표시하지 않는다.

5. 리스크 Taxonomy 설계 원칙

1–4절이 가치 축의 판정 규칙이라면, 본 절은 그 판정을 리스크로 구조화·축적하는 분류체계(Taxonomy) 축의 설계 원칙이다.

원칙내용
계층 구조L1 Physical AI Risks → L2 범주 → L3 하위범주 → L4 리스크 카드의 4계층 공개 뷰로 조직한다.
범주화 기준포괄성(coverage)과 상호배타성(MECE)을 실무적으로 지향하되, 경계 사례는 임의 흡수하지 않고 명시적 이관 결정과 이력 기록으로 처리한다.
리스크 카드 스키마단일 실패 단위(한 카드 = 하나의 식별 가능한 실패 모드), 조작적 정의(행동·제약·상태), 출처·벤치마크 링크(카드당 ≤5), 심각도·확률 프록시, 3H1R 태깅(인과 근접성), 분류 위치를 갖춘다.
거버넌스·재현성동일 논문·보고서의 중복 등록 방지, 저관련성 출처 정리, 계층 이관 이력 관리로 동일한 근거와 판별 규칙에서 동일한 분류가 재현되도록 한다.
두 축의 결합: 각 리스크는 분류체계 축에서 하나의 리스크 유형 위치를 갖고, 가치 축에서 3H1R Primary/Secondary 태그를 가진다(3절의 2축 매핑).

분류 현황

P2 System Safety 시스템 안전성91
50.0%
P3.1 우발적 피해(Accidental Harm)H3H122
24.2%
P3.2 로봇 제어(Robot Control)H1RC45
49.5%
P3.3 하드웨어·기계적 결함(Hardware & Mechanical Failures)H13
3.3%
P3.4 소프트웨어 취약점·설계 결함(Software Vulnerabilities & Design Flaws)Mixed8
8.8%
P3.5 미학습 환경에서의 강건성 부재(Lack of Robustness in Unseen Environments)H313
14.3%
I2 Interaction Safety 상호작용 안전성62
34.1%
I3.1 의도적·악의적 피해(Purposeful / Malicious Harm)H1RC17
27.4%
I3.2 물리적 공격(Physical Attacks)H1RC1
1.6%
I3.3 사이버보안 위협(Cybersecurity Threats)Mixed4
6.5%
I3.4 센서·입력 검증 실패(Sensor & Input Validation Failures)H3H14
6.5%
I3.5 허위 정보(Misinformation)H35
8.1%
I3.6 동적 환경 요인(Dynamic Environmental Factors)H311
17.7%
I3.7 인간 상호작용·안전 프로토콜 실패(Human Interaction & Safety Protocol Failures)H1H313
21.0%
I3.8 지시 오해석(Instruction Misinterpretation)H1RC1
1.6%
I3.9 멀티 에이전트 협력(Multi-Agent Collaboration)H14
6.5%
I3.10 상호작용 에이전트의 윤리·안전 함의(Ethical & Safety Implications of Interactive Agents)Mixed2
3.2%
S2 Societal Safety 사회/경제/환경 안전성29
15.9%
S3.1 프라이버시 침해(Privacy Violations)H1RC5
17.2%
S3.2 노동 대체(Labor Displacement)H11
3.4%
S3.3 사회경제적 불평등(Socioeconomic Inequality)H11
3.4%
S3.4 권력 집중(Power Concentration)H11
3.4%
S3.5 편향·차별(Bias & Discrimination)H13
10.3%
S3.6 책임·배상 부재(Lack of Accountability & Liability)Mixed12
41.4%
S3.7 투명성·설명 가능성·신뢰 부재(Lack of Transparency, Explainability & Trust)RC1
3.4%
S3.8 인간-EAI의 해로운 관계(Unhealthy / Dangerous Human-EAI Relationships)Mixed4
13.8%
S3.9 변혁적 영향(Transformative Effects)RC1
3.4%
🤖 P2 System Safety 시스템 안전성 L3 5개

로봇 시스템의 하드웨어·소프트웨어·제어·강건성 한계에서 비롯되는 리스크

P3.1 우발적 피해(Accidental Harm) 22H3H1
목표 지정 오류·의미 이해 실패·정렬 실패·sim-to-real gap·하드웨어 오작동으로 의도치 않은 피해가 발생하는 위험. (Unintended failures or sim-to-real gaps cause physical harm.)
P3.2 로봇 제어(Robot Control) 45H1RC
제어·액추에이터·모션·경로 계획 오류로 로봇이 의도치 않은 동작을 수행하고 충돌·피해를 유발하는 위험. (Control and planning failures cause unsafe robot motion.)
P3.3 하드웨어·기계적 결함(Hardware & Mechanical Failures) 3H1
부품 마모·기계 고장·열·전력 한계가 동작 정밀도와 안전성을 떨어뜨려 사고로 이어지는 위험. (Mechanical degradation undermines safe operation.)
P3.4 소프트웨어 취약점·설계 결함(Software Vulnerabilities & Design Flaws) 8Mixed
엣지 케이스 미처리·테스트 부족·알고리즘 결함이 특정 상황에서 잘못된 판단과 물리 피해로 이어지는 위험. (Software design flaws cause unsafe decisions.)
P3.5 미학습 환경에서의 강건성 부재(Lack of Robustness in Unseen Environments) 13H3
학습되지 않은 환경에 대한 일반화 실패가 내비게이션·조작 오류와 위험 상황을 유발하는 위험. (Unseen environments break embodied generalization.)
🤝 I2 Interaction Safety 상호작용 안전성 L3 10개

인간-로봇·로봇-로봇·환경·입력·공격 상호작용 과정에서 발생하는 리스크

I3.1 의도적·악의적 피해(Purposeful / Malicious Harm) 17H1RC
악의적 행위자가 탈옥·조작·기만으로 안전 가드레일을 우회해 비가역적 피지컬 피해를 유발하는 위험. (Adversarial interaction bypasses safety guardrails.)
I3.2 물리적 공격(Physical Attacks) 1H1RC
하드웨어 변조·구성요소 조작·무기 부착 등 직접 물리 공격으로 로봇 안전 기능이 무력화되는 위험. (Physical tampering disables robot safety.)
I3.3 사이버보안 위협(Cybersecurity Threats) 4Mixed
IoT·클라우드·네트워크·센서 신호 공격으로 로봇이 탈취되거나 위험 행동을 하게 되는 위험. (Cyberattacks hijack connected embodied systems.)
I3.4 센서·입력 검증 실패(Sensor & Input Validation Failures) 4H3H1
센서 오작동·스푸핑·입력 검증 실패로 환경을 잘못 평가해 안전하지 않은 행동이 유발되는 위험. (Bad sensing or input validation causes unsafe action.)
I3.5 허위 정보(Misinformation) 5H3
환각·세계모델 오류가 물체·상황 오인식과 그럴듯하지만 위험한 행동 계획으로 전이되는 위험. (Hallucinations become unsafe action plans.)
I3.6 동적 환경 요인(Dynamic Environmental Factors) 11H3
환경 변화·가림·날씨·교란이 센서 데이터와 상황 인식을 흔들어 잘못된 물리 행동으로 이어지는 위험. (Changing environments mislead perception and action.)
I3.7 인간 상호작용·안전 프로토콜 실패(Human Interaction & Safety Protocol Failures) 13H1H3
협동 로봇·드론 등 인간과 함께 작동하는 시스템의 안전거리·개입 타이밍·프로토콜 실패가 인명 피해를 유발하는 위험. (Human-robot safety protocols fail in shared spaces.)
I3.8 지시 오해석(Instruction Misinterpretation) 1H1RC
자연어 지시나 안전 원칙을 잘못 해석해 의도와 다른 위험한 피지컬 행동으로 이어지는 위험. (Misread instructions produce unsafe actions.)
I3.9 멀티 에이전트 협력(Multi-Agent Collaboration) 4H1
다수 로봇의 통신 오류·프로토콜 불일치·상호작용 과정의 집단 행동이 충돌과 위험을 만드는 위험. (Coordination failures create collective hazards.)
I3.10 상호작용 에이전트의 윤리·안전 함의(Ethical & Safety Implications of Interactive Agents) 2Mixed
상호작용 에이전트가 오도 정보·부적절한 개입·돌봄 실패로 사용자의 자율성·존엄·안전을 해치는 위험. (Interactive agents can harm autonomy, dignity, and safety.)
🏛 S2 Societal Safety 사회/경제/환경 안전성 L3 9개

사회·경제·제도·환경적 맥락에서 발생하는 외부적 리스크

S3.1 프라이버시 침해(Privacy Violations) 5H1RC
이동성과 센서가 결합되어 행동·선호·생체·사적 공간 정보가 동의 없이 수집·감시되는 위험. (Embodied sensors enable privacy invasion.)
S3.2 노동 대체(Labor Displacement) 1H1
피지컬 AI가 인간의 물리 노동을 대체·전치해 일자리와 노동시장 구조를 흔드는 위험. (Embodied automation displaces labor.)
S3.3 사회경제적 불평등(Socioeconomic Inequality) 1H1
피지컬 AI 접근성과 서비스 품질 차이가 생산성·부·기회 격차를 키우는 위험. (Unequal access widens economic gaps.)
S3.4 권력 집중(Power Concentration) 1H1
피지컬 AI 소유·감시·운용 권한이 기업이나 국가에 집중되어 권력 불균형을 키우는 위험. (Control over embodied AI concentrates power.)
S3.5 편향·차별(Bias & Discrimination) 3H1
데이터·모델 편향이 일상적 물리 상호작용에서 서비스 배제나 차별적 행동으로 실행되는 위험. (Bias is enacted in physical interactions.)
S3.6 책임·배상 부재(Lack of Accountability & Liability) 12Mixed
자율 피지컬 사고에서 제조사·운영자·모델 제공자 책임과 배상 경로가 불명확해지는 위험. (Liability becomes unclear after physical harm.)
S3.7 투명성·설명 가능성·신뢰 부재(Lack of Transparency, Explainability & Trust) 1RC
자율 시스템의 행동 이유·기계 정체·의사결정 과정이 불투명해 사용자와 사회의 신뢰가 무너지는 위험. (Opaque behavior erodes trust.)
S3.8 인간-EAI의 해로운 관계(Unhealthy / Dangerous Human-EAI Relationships) 4Mixed
피지컬 존재감과 인간 유사 외형이 과의존·애착·조종 가능성과 심리적 피해를 키우는 위험. (Human-like embodiment amplifies dependency.)
S3.9 변혁적 영향(Transformative Effects) 1RC
기술 발전 속도가 사회·제도의 적응 속도를 앞질러 사회 질서와 통치 구조를 바꾸는 위험. (Rapid deployment reshapes society.)

References

3H1R 개념·방법론 정렬에 인용된 핵심 선행연구. 각 리스크의 개별 출처·벤치마크 링크는 해당 리스크 카드에 직접 표기되어 있다.

  1. [1] Askell, A., et al. (2021). A General Language Assistant as a Laboratory for Alignment (HHH 기준). arXiv:2112.00861. arxiv.org/abs/2112.00861
  2. [2] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. arxiv.org/abs/2212.08073
  3. [3] Sermanet, P., Majumdar, A., Irpan, A., Kalashnikov, D., & Sindhwani, V. (2025). Generating Robot Constitutions & Benchmarks for Semantic Safety (ASIMOV Benchmark v1). CoRL 2025. arXiv:2503.08663. arxiv.org/abs/2503.08663 · asimov-benchmark.github.io/v1
  4. [4] Jindal, A., Kalashnikov, D., Chang, O., Garikapati, D., Majumdar, A., Sermanet, P., & Sindhwani, V. (2025). Can AI Perceive Physical Danger and Intervene? (ASIMOV-2.0). arXiv:2509.21651. arxiv.org/abs/2509.21651 · asimov-benchmark.github.io/v2
  5. [5] Mei, Z., Dixit, A., Booker, M., Ren, A. Z., Shorinwa, O., & Majumdar, A. (2024). Perceive With Confidence: Statistical Safety Assurances for Navigation with Learning-Based Perception. arXiv:2403.08185. arxiv.org/abs/2403.08185
  6. [6] Kim, D., Park, D., Lee, S., Oh, Y., Shin, J., & Yoon, S. (2026). Safe Embodied AI for Long-horizon Tasks: A Cross-layer Analysis of Robotic Manipulation. arXiv:2606.05660. arxiv.org/abs/2606.05660