۱. مفهوم پوشش داده
پوشش دادهها که به عنوان پوشش داده نیز شناخته میشود، یک روش فنی برای تبدیل، اصلاح یا پوشش دادههای حساس مانند شماره تلفن همراه، شماره کارت بانکی و سایر اطلاعات است، زمانی که قوانین و سیاستهای پوشش را ارائه دادهایم. این تکنیک در درجه اول برای جلوگیری از استفاده مستقیم دادههای حساس در محیطهای غیرقابل اعتماد استفاده میشود.
اصل پوشش دادهها: پوشش دادهها باید ویژگیهای دادههای اصلی، قوانین کسبوکار و مرتبط بودن دادهها را حفظ کند تا اطمینان حاصل شود که توسعه، آزمایش و تحلیل دادههای بعدی تحت تأثیر پوشش قرار نمیگیرند. قبل و بعد از پوشش، از ثبات و اعتبار دادهها اطمینان حاصل کنید.
۲. طبقهبندی پوشش داده
پوشش دادهها را میتوان به پوشش دادههای ایستا (SDM) و پوشش دادههای پویا (DDM) تقسیم کرد.
پوشش داده استاتیک (SDM): پوشش داده ایستا نیاز به ایجاد یک پایگاه داده جدید در محیط غیر تولیدی برای جداسازی از محیط تولیدی دارد. دادههای حساس از پایگاه داده تولیدی استخراج شده و سپس در پایگاه داده غیر تولیدی ذخیره میشوند. به این ترتیب، دادههای حساسزدایی شده از محیط تولیدی جدا میشوند که نیازهای تجاری را برآورده کرده و امنیت دادههای تولیدی را تضمین میکند.
پوشش پویای دادهها (DDM): عموماً در محیط عملیاتی برای حساسیتزدایی دادههای حساس در زمان واقعی استفاده میشود. گاهی اوقات، سطوح مختلفی از پوشش برای خواندن دادههای حساس یکسان در موقعیتهای مختلف مورد نیاز است. به عنوان مثال، نقشها و مجوزهای مختلف ممکن است طرحهای پوشش متفاوتی را پیادهسازی کنند.
برنامه گزارشدهی دادهها و پوشش محصولات داده
چنین سناریوهایی عمدتاً شامل محصولات یا بیلبوردهای نظارت بر دادههای داخلی، محصولات دادههای خدمات خارجی و گزارشهای مبتنی بر تحلیل دادهها، مانند گزارشهای تجاری و بررسی پروژه، میشوند.
۳. راهکار پوشش دادهها
طرحهای رایج پوشش دادهها عبارتند از: نامعتبرسازی، مقدار تصادفی، جایگزینی دادهها، رمزگذاری متقارن، مقدار میانگین، جبران و گرد کردن و غیره.
ابطال: اعتبارزدایی به رمزگذاری، کوتاهسازی یا پنهانسازی دادههای حساس اشاره دارد. این طرح معمولاً دادههای واقعی را با نمادهای ویژه (مانند *) جایگزین میکند. این عملیات ساده است، اما کاربران نمیتوانند از قالب دادههای اصلی مطلع شوند، که ممکن است بر کاربردهای بعدی دادهها تأثیر بگذارد.
مقدار تصادفی: مقدار تصادفی به جایگزینی تصادفی دادههای حساس اشاره دارد (اعداد جایگزین ارقام، حروف جایگزین حروف و کاراکترها جایگزین کاراکترها میشوند). این روش پوشش، قالب دادههای حساس را تا حدی تضمین کرده و کاربرد بعدی دادهها را تسهیل میکند. ممکن است برای برخی از کلمات معنیدار، مانند نام افراد و مکانها، به دیکشنریهای پوششی نیاز باشد.
جایگزینی دادههاجایگزینی دادهها مشابه پنهانسازی مقادیر تهی و تصادفی است، با این تفاوت که به جای استفاده از کاراکترهای ویژه یا مقادیر تصادفی، دادههای پنهانساز با یک مقدار خاص جایگزین میشوند.
رمزگذاری متقارنرمزگذاری متقارن یک روش پوشش برگشتپذیر ویژه است. این روش دادههای حساس را از طریق کلیدها و الگوریتمهای رمزگذاری رمزگذاری میکند. قالب متن رمز شده با دادههای اصلی در قوانین منطقی سازگار است.
میانگین: طرح میانگین اغلب در سناریوهای آماری استفاده میشود. برای دادههای عددی، ابتدا میانگین آنها را محاسبه میکنیم و سپس مقادیر حساسیتزدایی شده را به صورت تصادفی در اطراف میانگین توزیع میکنیم و به این ترتیب مجموع دادهها ثابت میماند.
افست و گرد کردناین روش دادههای دیجیتال را با تغییر تصادفی تغییر میدهد. گرد کردن آفست، صحت تقریبی محدوده را تضمین میکند و در عین حال امنیت دادهها را حفظ میکند، که نسبت به طرحهای قبلی به دادههای واقعی نزدیکتر است و در سناریوی تحلیل کلانداده اهمیت زیادی دارد.
مدل پیشنهادی "ML-NPB-5660" برای پوشش داده ها
۴. تکنیکهای رایج پوشش داده
(1). تکنیکهای آماری
نمونهگیری و تجمیع دادهها
- نمونهگیری دادهها: تحلیل و ارزیابی مجموعه دادههای اصلی با انتخاب زیرمجموعهای نماینده از مجموعه دادهها، روشی مهم برای بهبود اثربخشی تکنیکهای شناساییزدایی است.
- تجمیع دادهها: به عنوان مجموعهای از تکنیکهای آماری (مانند جمع، شمارش، میانگین، حداکثر و حداقل) که بر روی ویژگیها در ریزدادهها اعمال میشود، نتیجه نماینده تمام رکوردها در مجموعه دادههای اصلی است.
(2). رمزنگاری
رمزنگاری یک روش رایج برای حساسیتزدایی یا افزایش اثربخشی حساسیتزدایی است. انواع مختلف الگوریتمهای رمزگذاری میتوانند اثرات حساسیتزدایی متفاوتی را به دست آورند.
- رمزگذاری قطعی: یک رمزگذاری متقارن غیر تصادفی. معمولاً دادههای شناسه را پردازش میکند و میتواند در صورت لزوم رمزگشایی و متن رمز شده را به شناسه اصلی بازگرداند، اما کلید باید به درستی محافظت شود.
- رمزگذاری برگشتناپذیر: از تابع هش برای پردازش دادهها استفاده میشود که معمولاً برای دادههای شناسه استفاده میشود. نمیتوان آن را مستقیماً رمزگشایی کرد و باید رابطه نگاشت را ذخیره کرد. علاوه بر این، به دلیل ویژگی تابع هش، ممکن است تصادم دادهها رخ دهد.
- رمزگذاری همریختی: از الگوریتم همریختی متن رمزی استفاده میشود. ویژگی آن این است که نتیجه عملیات متن رمزی پس از رمزگشایی با نتیجه عملیات متن ساده یکسان است. بنابراین، معمولاً برای پردازش فیلدهای عددی استفاده میشود، اما به دلایل عملکردی به طور گسترده مورد استفاده قرار نمیگیرد.
(3). فناوری سیستم
این فناوری سرکوب، اقلام دادهای را که مطابق با حفاظت از حریم خصوصی نیستند، حذف یا محافظت میکند، اما آنها را منتشر نمیکند.
- پنهانسازی: به رایجترین روش حساسیتزدایی برای پنهان کردن مقدار ویژگی اشاره دارد، مانند شماره حریف، کارت شناسایی با ستاره مشخص شده است، یا آدرس کوتاه شده است.
- سرکوب محلی: به فرآیند حذف مقادیر ویژگی خاص (ستونها) و حذف فیلدهای داده غیرضروری اشاره دارد.
- حذف رکورد: به فرآیند حذف رکوردهای خاص (ردیفها)، حذف رکوردهای دادهای غیرضروری اشاره دارد.
(4). فناوری با نام مستعار
شبهسازی یک تکنیک هویتزدایی است که از یک نام مستعار برای جایگزینی یک شناسه مستقیم (یا شناسه حساس دیگر) استفاده میکند. تکنیکهای نام مستعار، به جای شناسههای مستقیم یا حساس، شناسههای منحصر به فردی برای هر موضوع اطلاعات ایجاد میکنند.
- میتواند مقادیر تصادفی را به طور مستقل تولید کند تا با شناسه اصلی مطابقت داشته باشد، جدول نگاشت را ذخیره کند و دسترسی به جدول نگاشت را به شدت کنترل کند.
- شما همچنین میتوانید از رمزگذاری برای تولید نامهای مستعار استفاده کنید، اما باید کلید رمزگشایی را به درستی نگه دارید.
این فناوری به طور گسترده در مورد تعداد زیادی از کاربران داده مستقل، مانند OpenID در سناریوی پلتفرم باز، که در آن توسعهدهندگان مختلف OpenID های مختلفی را برای یک کاربر به دست میآورند، استفاده میشود.
(5). تکنیکهای تعمیم
تکنیک تعمیم به یک تکنیک عدم شناسایی اشاره دارد که جزئیات ویژگیهای انتخابشده در یک مجموعه داده را کاهش میدهد و توصیف کلیتر و انتزاعیتری از دادهها ارائه میدهد. فناوری تعمیم به راحتی قابل پیادهسازی است و میتواند از صحت دادههای سطح رکورد محافظت کند. این تکنیک معمولاً در محصولات داده یا گزارشهای داده استفاده میشود.
- گرد کردن: شامل انتخاب یک مبنای گرد کردن برای ویژگی انتخاب شده، مانند بررسیهای رو به بالا یا رو به پایین، که نتایج ۱۰۰، ۵۰۰، ۱ هزار و ۱۰ هزار را ارائه میدهد.
- تکنیکهای کدگذاری بالا و پایین: مقادیر بالا (یا پایین) آستانه را با آستانهای که نشان دهنده سطح بالا (یا پایین) است جایگزین کنید، که نتیجه آن "بالای X" یا "پایین X" خواهد بود.
(6). تکنیکهای تصادفیسازی
به عنوان نوعی تکنیک شناساییزدایی، فناوری تصادفیسازی به اصلاح مقدار یک ویژگی از طریق تصادفیسازی اشاره دارد، به طوری که مقدار پس از تصادفیسازی با مقدار واقعی اصلی متفاوت باشد. این فرآیند توانایی یک مهاجم را برای استخراج مقدار یک ویژگی از سایر مقادیر ویژگی در همان رکورد داده کاهش میدهد، اما بر صحت دادههای حاصل تأثیر میگذارد، که در دادههای آزمایشی تولید رایج است.
زمان ارسال: ۲۷ سپتامبر ۲۰۲۲