⚠️ This site is an independent educational project. Summaries are AI-generated from NTT Technical Review articles. Not affiliated with NTT. The goal is to aid understanding before reading the original article.
NTT Technical Review · April 2026

Recent Activities of QoE-related Standardization in ITU-T SG12

Original abstract: To provide communication services with appropriate quality, network service design and management are essential, requiring technologies to measure and evaluate quality quantitatively. ITU-T (International Telecommunication Union - Telecommunication Standardization Sector) Study Group 12 researches evaluation methods, measurement techniques, and specified values for quality of experience (QoE)—the quality users perceive from a service—and the quality of service (QoS) required to achieve its target values. This article introduces the latest trends in standardization for QoE/QoS evaluation and management technologies for video media.
🔗 Read original article on NTT Technical Review →

Simplified Summary / Resumen Simplificado / 簡易解説

Imagina que estás viendo una videoconferencia importante y la imagen empieza a pixelarse, el audio se corta y el video se congela. Frustrante, ¿verdad? Ahora imagina que eres un operador monitoreando un vehículo autónomo desde un centro de control y la cámara del coche empieza a transmitir imágenes borrosas — ¿puedes distinguir un obstáculo en la carretera? La diferencia entre una buena y una mala experiencia de usuario no es solo cuestión de comodidad: a veces es cuestión de seguridad. Para que los servicios de comunicación funcionen bien, los ingenieros necesitan formas precisas de medir y gestionar esa calidad. Aquí entra en juego un organismo internacional llamado ITU-T SG12, que es como la 'agencia de normas de calidad' del mundo de las telecomunicaciones. Este grupo de expertos crea reglas y herramientas que permiten a las empresas medir qué tan buena es la experiencia de sus usuarios — no solo técnicamente, sino desde el punto de vista de las personas reales que usan el servicio. Este artículo nos cuenta los últimos avances de ese trabajo: desde modelos para evaluar si la cámara de un coche autónomo transmite con suficiente claridad para que un operador humano detecte peligros, hasta herramientas para medir la calidad de videollamadas y verificar si las voces generadas por inteligencia artificial suenan tan bien como las reales. Es ciencia al servicio de una experiencia digital mejor para todos.
QoE (Calidad de Experiencia)
Es la medida de qué tan satisfecho se siente un usuario con un servicio. No mide cables ni señales, sino sensaciones humanas: ¿La llamada sonó bien? ¿El video se veía claro? Es como la nota que le pone un cliente a un restaurante, no al ingrediente sino a la experiencia completa.
QoS (Calidad de Servicio)
Son las condiciones técnicas de la red que hacen posible una buena experiencia: velocidad de conexión, cuántos datos se pierden en tránsito, cuánto tarda en llegar la señal. Si QoE es la satisfacción del cliente, QoS son las condiciones de cocina del restaurante.
Streaming adaptativo
Es la tecnología que usan servicios como Netflix para ajustar automáticamente la calidad del video según la velocidad de tu internet. Si tu conexión es lenta, baja la calidad para que no se congele; si va rápido, sube la resolución. Como un grifo que regula solo el flujo según la presión del agua.
H.265/HEVC y AV1
Son formatos de compresión de video — métodos para 'empaquetar' el video de forma que ocupe menos espacio sin perder demasiada calidad. AV1 es el más nuevo y eficiente, como pasar de una maleta antigua a una bolsa de viaje moderna que guarda más con menos espacio.
Conducción autónoma Nivel 4
Es el nivel en que un coche puede conducirse solo sin que haya un conductor al volante, pero aún requiere que una persona lo monitoree a distancia. Imagina un dron de reparto que vuela solo pero que alguien vigila desde una pantalla.
Puntuación de opinión media (MOS)
Es una escala numérica (del 1 al 5) que resume qué tan buena es la calidad de audio o video percibida por los usuarios. Se obtiene promediando las opiniones de muchas personas en experimentos controlados. Es como una calificación de estrellas, pero para llamadas y videos.
El artículo técnico que vas a leer describe en detalle cinco áreas de trabajo del grupo ITU-T SG12: una norma para evaluar si las cámaras de vehículos autónomos transmiten con suficiente calidad para reconocer objetos, otra para monitorear la calidad del streaming de video en alta definición, una herramienta para medir la experiencia en videollamadas considerando factores como el delay y la sincronización, y un proyecto nuevo para verificar si las herramientas existentes funcionan con voz generada por inteligencia artificial. Encontrarás nombres de recomendaciones técnicas (como P.1199 o P.1204) que son simplemente los 'códigos de catálogo' de cada norma internacional. No te preocupes si algunos detalles parecen muy específicos — lo importante es el panorama general de cómo el mundo está trabajando para garantizar que la comunicación digital sea medible, confiable y de calidad.

Disclaimer (🇪🇸): Este sitio es un proyecto independiente de divulgación educativa. Los resúmenes son generados por IA a partir de artículos de NTT Technical Review. No está afiliado a NTT. El objetivo es facilitar el entendimiento previo a la lectura del artículo original.

Have you ever been on a video call when suddenly the picture freezes, the audio cuts out, and you're left staring at a pixelated mess? Or imagine watching a live sports stream that buffers right at the most exciting moment. These frustrating experiences aren't random — they're the result of measurable technical problems. And somewhere in the world, teams of experts are working hard to define exactly what 'good quality' means so that engineers can fix it. That's the mission of ITU-T Study Group 12 — think of it as the international 'quality standards committee' for digital communication. This global group of researchers and engineers creates official guidelines that help telecom companies measure, monitor, and improve the quality that real users actually experience. And their work is expanding into some surprisingly high-stakes territory: ensuring that the cameras on self-driving cars transmit clearly enough for a remote human operator to spot a pedestrian or a pothole in real time. This article offers a window into their latest work, covering everything from quality assessment tools for 4K video streaming to brand-new research into whether today's quality measurement tools can keep up with voices generated by artificial intelligence. It's a behind-the-scenes look at the invisible science that keeps our digital world running smoothly.
QoE (Quality of Experience)
This is the measure of how satisfied a real person feels when using a service — not just whether the technology is working, but whether it feels good to use. Did the call sound clear? Did the video look sharp? Think of it as the customer satisfaction score for digital communication.
QoS (Quality of Service)
These are the technical network conditions — like connection speed, how much data gets lost in transit, and response time — that make a good user experience possible. If QoE is how happy the diner is, QoS is the condition of the kitchen.
Adaptive Bitrate Streaming
The clever technology used by services like Netflix that automatically adjusts video quality based on your internet speed. Slow connection? It lowers quality to prevent freezing. Fast connection? It bumps up to crisp HD. Like a smart tap that adjusts water flow based on pressure.
H.265/HEVC and AV1
These are video compression formats — ways of squeezing video files so they take up less space and travel faster across networks without losing too much picture quality. AV1 is the newer, more efficient option, like upgrading from a bulky suitcase to a clever compression bag.
SAE Level 4 Autonomous Driving
A specific level of self-driving capability where a car can navigate entirely on its own in defined conditions — no human driver needed at the wheel — but a remote human supervisor still monitors its operation from a control center, like a drone pilot watching a feed from afar.
Mean Opinion Score (MOS)
A numeric scale, usually from 1 to 5, that summarizes how good audio or video quality feels to human listeners or viewers. It's calculated by averaging the ratings of many real test participants. Think of it as the star rating system for calls and video streams.
The technical article ahead walks you through five active areas of work within ITU-T SG12. You'll encounter specific recommendation codes like P.1199 and P.1204 — these are simply the official catalog numbers for each international standard, like ISBN numbers for books. The article covers: a model for checking whether autonomous vehicle cameras are transmitting clearly enough for object recognition; tools for monitoring 4K video streaming quality; a comprehensive system for evaluating video call quality including delay and audio-video sync; and a new research initiative to test whether existing quality tools work with AI-generated speech. Some sections go deep into technical parameters, but even if you skim those parts, the bigger picture — how the world is building a shared language for measuring digital quality — comes through clearly and is well worth your attention.

Disclaimer (🇺🇸): This site is an independent educational project. Summaries are AI-generated from NTT Technical Review articles. Not affiliated with NTT. The goal is to aid understanding before reading the original article.

ビデオ通話中に映像がフリーズしたり、音声が途切れたりした経験はありませんか?あるいは、大事な動画をストリーミングしているときに「読み込み中…」のぐるぐるマークが出て、イライラしたことは?こういった「残念な体験」は偶然ではなく、測定・改善できる技術的な問題から生じています。そして世界のどこかで、専門家たちが「デジタル通信の品質とは何か」を正確に定義するために日夜取り組んでいます。 その中心的な役割を担うのが「ITU-T SG12(国際電気通信連合・電気通信標準化部門 第12研究グループ)」です。これはいわば、デジタル通信の世界における「国際品質基準委員会」。世界中の研究者やエンジニアが集まり、通信サービスの品質をどう測り、どう管理するかの公式なルールを作っています。その活動の範囲は、自動運転車に搭載されたカメラの映像が、遠隔監視オペレーターが障害物を正確に認識できるほど鮮明かどうかを評価するというような、命に関わる重要な領域にまで広がっています。 この記事では、4K動画ストリーミングの品質評価から、AIが生成した音声に既存の品質評価ツールが対応できるかを検証する最新の研究まで、ITU-T SG12の最前線の取り組みを紹介しています。私たちのデジタル生活を陰で支える「見えないサイエンス」を覗いてみましょう。
QoE(体感品質)
サービスを使ったとき、ユーザーが「実際にどう感じるか」を数値化したものです。技術的な指標だけでなく、「通話の声は聞き取りやすかったか」「映像は鮮明だったか」という人間の感覚を重視します。飲食店でいえば、料理の材料ではなく、お客さんの満足度そのものを測るイメージです。
QoS(サービス品質)
良い体験を支えるネットワークの技術的な条件のことです。接続速度、データの損失率、遅延などが含まれます。QoEが「お客さんの満足度」なら、QoSは「厨房の設備や食材の鮮度」に相当します。
アダプティブビットレートストリーミング
NetflixやYouTubeなどが使っている技術で、ネット回線の速度に応じて動画の画質を自動的に調整します。回線が遅ければ画質を下げてフリーズを防ぎ、速ければ高解像度で配信します。水圧に応じて流量を自動調整する蛇口のようなイメージです。
H.265/HEVCとAV1
動画を圧縮するためのフォーマット(方式)です。ファイルサイズを小さくしながらも画質をなるべく保つ技術で、AV1は最新かつより効率的な方式です。旧来のスーツケースから、より多くのものが入るコンパクトな圧縮バッグに切り替えるようなイメージです。
自動運転レベル4
SAE(米国自動車技術者協会)が定めた自動化レベルの一つで、特定の条件下では運転席に人がいなくても車が自律的に走行できる段階です。ただし、遠隔から人が監視することが法律で義務付けられています。ドローンが自動飛行しながら、別の場所にいる人が映像で状況を確認するイメージに近いです。
MOS(平均意見点)
音声や映像の品質を人間がどう感じるかを数値化した指標で、通常1〜5点のスケールで表されます。多くの被験者に評価してもらい、その平均をとります。通話や動画の「星評価」のようなものです。
これから読む技術論文では、ITU-T SG12が取り組む5つのテーマが詳しく解説されています。「P.1199」「P.1204」といった勧告コードが登場しますが、これらは国際標準の「カタログ番号」のようなものなので、難しく考える必要はありません。具体的には、①自動運転車カメラの映像品質評価モデル、②4K動画ストリーミングの品質監視ツール、③遅延や音声・映像の同期を考慮したビデオ通話品質評価システム、④AI生成音声に対する既存評価手法の適用可能性検証、という4つのトピックが中心です。細かい数値や技術パラメータの部分は流し読みしても大丈夫です。「世界がデジタル通信の品質を共通の言葉で測ろうとしている」という大きな流れを感じ取りながら読んでみてください。

Disclaimer (🇯🇵): このサイトは独立した教育目的のプロジェクトです。要約はNTT技術ジャーナルの記事からAIが生成したものです。NTTとは無関係です。目的は元の記事を読む前の理解を助けることです。

← Back to all summaries