فناوری و راهکار پوشش داده در Network Packet Broker چیست؟

۱. مفهوم پوشش داده

پوشش داده‌ها که به عنوان پوشش داده نیز شناخته می‌شود، یک روش فنی برای تبدیل، اصلاح یا پوشش داده‌های حساس مانند شماره تلفن همراه، شماره کارت بانکی و سایر اطلاعات است، زمانی که قوانین و سیاست‌های پوشش را ارائه داده‌ایم. این تکنیک در درجه اول برای جلوگیری از استفاده مستقیم داده‌های حساس در محیط‌های غیرقابل اعتماد استفاده می‌شود.

اصل پوشش داده‌ها: پوشش داده‌ها باید ویژگی‌های داده‌های اصلی، قوانین کسب‌وکار و مرتبط بودن داده‌ها را حفظ کند تا اطمینان حاصل شود که توسعه، آزمایش و تحلیل داده‌های بعدی تحت تأثیر پوشش قرار نمی‌گیرند. قبل و بعد از پوشش، از ثبات و اعتبار داده‌ها اطمینان حاصل کنید.

۲. طبقه‌بندی پوشش داده

پوشش داده‌ها را می‌توان به پوشش داده‌های ایستا (SDM) و پوشش داده‌های پویا (DDM) تقسیم کرد.

پوشش داده استاتیک (SDM): پوشش داده ایستا نیاز به ایجاد یک پایگاه داده جدید در محیط غیر تولیدی برای جداسازی از محیط تولیدی دارد. داده‌های حساس از پایگاه داده تولیدی استخراج شده و سپس در پایگاه داده غیر تولیدی ذخیره می‌شوند. به این ترتیب، داده‌های حساس‌زدایی شده از محیط تولیدی جدا می‌شوند که نیازهای تجاری را برآورده کرده و امنیت داده‌های تولیدی را تضمین می‌کند.

اس دی ام

پوشش پویای داده‌ها (DDM): عموماً در محیط عملیاتی برای حساسیت‌زدایی داده‌های حساس در زمان واقعی استفاده می‌شود. گاهی اوقات، سطوح مختلفی از پوشش برای خواندن داده‌های حساس یکسان در موقعیت‌های مختلف مورد نیاز است. به عنوان مثال، نقش‌ها و مجوزهای مختلف ممکن است طرح‌های پوشش متفاوتی را پیاده‌سازی کنند.

دی دی ام

برنامه گزارش‌دهی داده‌ها و پوشش محصولات داده

چنین سناریوهایی عمدتاً شامل محصولات یا بیلبوردهای نظارت بر داده‌های داخلی، محصولات داده‌های خدمات خارجی و گزارش‌های مبتنی بر تحلیل داده‌ها، مانند گزارش‌های تجاری و بررسی پروژه، می‌شوند.

پوشش محصول گزارش داده

۳. راهکار پوشش داده‌ها

طرح‌های رایج پوشش داده‌ها عبارتند از: نامعتبرسازی، مقدار تصادفی، جایگزینی داده‌ها، رمزگذاری متقارن، مقدار میانگین، جبران و گرد کردن و غیره.

ابطال: اعتبارزدایی به رمزگذاری، کوتاه‌سازی یا پنهان‌سازی داده‌های حساس اشاره دارد. این طرح معمولاً داده‌های واقعی را با نمادهای ویژه (مانند *) جایگزین می‌کند. این عملیات ساده است، اما کاربران نمی‌توانند از قالب داده‌های اصلی مطلع شوند، که ممکن است بر کاربردهای بعدی داده‌ها تأثیر بگذارد.

مقدار تصادفی: مقدار تصادفی به جایگزینی تصادفی داده‌های حساس اشاره دارد (اعداد جایگزین ارقام، حروف جایگزین حروف و کاراکترها جایگزین کاراکترها می‌شوند). این روش پوشش، قالب داده‌های حساس را تا حدی تضمین کرده و کاربرد بعدی داده‌ها را تسهیل می‌کند. ممکن است برای برخی از کلمات معنی‌دار، مانند نام افراد و مکان‌ها، به دیکشنری‌های پوششی نیاز باشد.

جایگزینی داده‌هاجایگزینی داده‌ها مشابه پنهان‌سازی مقادیر تهی و تصادفی است، با این تفاوت که به جای استفاده از کاراکترهای ویژه یا مقادیر تصادفی، داده‌های پنهان‌ساز با یک مقدار خاص جایگزین می‌شوند.

رمزگذاری متقارنرمزگذاری متقارن یک روش پوشش برگشت‌پذیر ویژه است. این روش داده‌های حساس را از طریق کلیدها و الگوریتم‌های رمزگذاری رمزگذاری می‌کند. قالب متن رمز شده با داده‌های اصلی در قوانین منطقی سازگار است.

میانگین: طرح میانگین اغلب در سناریوهای آماری استفاده می‌شود. برای داده‌های عددی، ابتدا میانگین آنها را محاسبه می‌کنیم و سپس مقادیر حساسیت‌زدایی شده را به صورت تصادفی در اطراف میانگین توزیع می‌کنیم و به این ترتیب مجموع داده‌ها ثابت می‌ماند.

افست و گرد کردناین روش داده‌های دیجیتال را با تغییر تصادفی تغییر می‌دهد. گرد کردن آفست، صحت تقریبی محدوده را تضمین می‌کند و در عین حال امنیت داده‌ها را حفظ می‌کند، که نسبت به طرح‌های قبلی به داده‌های واقعی نزدیک‌تر است و در سناریوی تحلیل کلان‌داده اهمیت زیادی دارد.

ML-NPB-5660-数据脱敏

مدل پیشنهادی "ML-NPB-5660" برای پوشش داده ها

۴. تکنیک‌های رایج پوشش داده

(1). تکنیک‌های آماری

نمونه‌گیری و تجمیع داده‌ها

- نمونه‌گیری داده‌ها: تحلیل و ارزیابی مجموعه داده‌های اصلی با انتخاب زیرمجموعه‌ای نماینده از مجموعه داده‌ها، روشی مهم برای بهبود اثربخشی تکنیک‌های شناسایی‌زدایی است.

- تجمیع داده‌ها: به عنوان مجموعه‌ای از تکنیک‌های آماری (مانند جمع، شمارش، میانگین، حداکثر و حداقل) که بر روی ویژگی‌ها در ریزداده‌ها اعمال می‌شود، نتیجه نماینده تمام رکوردها در مجموعه داده‌های اصلی است.

(2). رمزنگاری

رمزنگاری یک روش رایج برای حساسیت‌زدایی یا افزایش اثربخشی حساسیت‌زدایی است. انواع مختلف الگوریتم‌های رمزگذاری می‌توانند اثرات حساسیت‌زدایی متفاوتی را به دست آورند.

- رمزگذاری قطعی: یک رمزگذاری متقارن غیر تصادفی. معمولاً داده‌های شناسه را پردازش می‌کند و می‌تواند در صورت لزوم رمزگشایی و متن رمز شده را به شناسه اصلی بازگرداند، اما کلید باید به درستی محافظت شود.

- رمزگذاری برگشت‌ناپذیر: از تابع هش برای پردازش داده‌ها استفاده می‌شود که معمولاً برای داده‌های شناسه استفاده می‌شود. نمی‌توان آن را مستقیماً رمزگشایی کرد و باید رابطه نگاشت را ذخیره کرد. علاوه بر این، به دلیل ویژگی تابع هش، ممکن است تصادم داده‌ها رخ دهد.

- رمزگذاری همریختی: از الگوریتم همریختی متن رمزی استفاده می‌شود. ویژگی آن این است که نتیجه عملیات متن رمزی پس از رمزگشایی با نتیجه عملیات متن ساده یکسان است. بنابراین، معمولاً برای پردازش فیلدهای عددی استفاده می‌شود، اما به دلایل عملکردی به طور گسترده مورد استفاده قرار نمی‌گیرد.

(3). فناوری سیستم

این فناوری سرکوب، اقلام داده‌ای را که مطابق با حفاظت از حریم خصوصی نیستند، حذف یا محافظت می‌کند، اما آنها را منتشر نمی‌کند.

- پنهان‌سازی: به رایج‌ترین روش حساسیت‌زدایی برای پنهان کردن مقدار ویژگی اشاره دارد، مانند شماره حریف، کارت شناسایی با ستاره مشخص شده است، یا آدرس کوتاه شده است.

- سرکوب محلی: به فرآیند حذف مقادیر ویژگی خاص (ستون‌ها) و حذف فیلدهای داده غیرضروری اشاره دارد.

- حذف رکورد: به فرآیند حذف رکوردهای خاص (ردیف‌ها)، حذف رکوردهای داده‌ای غیرضروری اشاره دارد.

(4). فناوری با نام مستعار

شبه‌سازی یک تکنیک هویت‌زدایی است که از یک نام مستعار برای جایگزینی یک شناسه مستقیم (یا شناسه حساس دیگر) استفاده می‌کند. تکنیک‌های نام مستعار، به جای شناسه‌های مستقیم یا حساس، شناسه‌های منحصر به فردی برای هر موضوع اطلاعات ایجاد می‌کنند.

- می‌تواند مقادیر تصادفی را به طور مستقل تولید کند تا با شناسه اصلی مطابقت داشته باشد، جدول نگاشت را ذخیره کند و دسترسی به جدول نگاشت را به شدت کنترل کند.

- شما همچنین می‌توانید از رمزگذاری برای تولید نام‌های مستعار استفاده کنید، اما باید کلید رمزگشایی را به درستی نگه دارید.

این فناوری به طور گسترده در مورد تعداد زیادی از کاربران داده مستقل، مانند OpenID در سناریوی پلتفرم باز، که در آن توسعه‌دهندگان مختلف OpenID های مختلفی را برای یک کاربر به دست می‌آورند، استفاده می‌شود.

(5). تکنیک‌های تعمیم

تکنیک تعمیم به یک تکنیک عدم شناسایی اشاره دارد که جزئیات ویژگی‌های انتخاب‌شده در یک مجموعه داده را کاهش می‌دهد و توصیف کلی‌تر و انتزاعی‌تری از داده‌ها ارائه می‌دهد. فناوری تعمیم به راحتی قابل پیاده‌سازی است و می‌تواند از صحت داده‌های سطح رکورد محافظت کند. این تکنیک معمولاً در محصولات داده یا گزارش‌های داده استفاده می‌شود.

- گرد کردن: شامل انتخاب یک مبنای گرد کردن برای ویژگی انتخاب شده، مانند بررسی‌های رو به بالا یا رو به پایین، که نتایج ۱۰۰، ۵۰۰، ۱ هزار و ۱۰ هزار را ارائه می‌دهد.

- تکنیک‌های کدگذاری بالا و پایین: مقادیر بالا (یا پایین) آستانه را با آستانه‌ای که نشان دهنده سطح بالا (یا پایین) است جایگزین کنید، که نتیجه آن "بالای X" یا "پایین X" خواهد بود.

(6). تکنیک‌های تصادفی‌سازی

به عنوان نوعی تکنیک شناسایی‌زدایی، فناوری تصادفی‌سازی به اصلاح مقدار یک ویژگی از طریق تصادفی‌سازی اشاره دارد، به طوری که مقدار پس از تصادفی‌سازی با مقدار واقعی اصلی متفاوت باشد. این فرآیند توانایی یک مهاجم را برای استخراج مقدار یک ویژگی از سایر مقادیر ویژگی در همان رکورد داده کاهش می‌دهد، اما بر صحت داده‌های حاصل تأثیر می‌گذارد، که در داده‌های آزمایشی تولید رایج است.


زمان ارسال: ۲۷ سپتامبر ۲۰۲۲