1. مفهوم نقاب سازی داده ها
نقاب سازی داده ها همچنین به عنوان نقاب سازی داده شناخته می شوند. این یک روش فنی برای تبدیل ، اصلاح یا پوشش داده های حساس مانند شماره تلفن همراه ، شماره کارت بانکی و سایر اطلاعات در هنگام ارائه قوانین و خط مشی های ماسک است. این روش در درجه اول برای جلوگیری از استفاده مستقیم از داده های حساس در محیط های غیرقابل اعتماد استفاده می شود.
اصل پوشش داده ها: پوشیدن داده ها باید ویژگی های اصلی داده ها ، قوانین تجاری و ارتباط داده ها را حفظ کند تا اطمینان حاصل شود که توسعه ، آزمایش و تجزیه و تحلیل داده ها تحت تأثیر ماسک قرار نمی گیرند. از قوام و اعتبار داده ها قبل و بعد از نقاب اطمینان حاصل کنید.
2. طبقه بندی ماسک داده
ماسک داده ها را می توان به نقاب سازی داده های استاتیک (SDM) و ماسک زدن به داده های پویا (DDM) تقسیم کرد.
نقاب داده های استاتیک (SDM): پوشش داده های استاتیک نیاز به ایجاد یک پایگاه داده جدید محیط زیست غیر تولیدی برای جداسازی از محیط تولید دارد. داده های حساس از پایگاه داده تولید استخراج شده و سپس در پایگاه داده غیر تولیدی ذخیره می شوند. به این ترتیب ، داده های حساس از محیط تولید جدا می شوند ، که نیازهای تجاری را برآورده می کند و امنیت داده های تولید را تضمین می کند.
نقاب داده پویا (DDM): به طور کلی در محیط تولید برای حساسیت به داده های حساس در زمان واقعی استفاده می شود. بعضی اوقات ، برای خواندن همان داده های حساس در موقعیت های مختلف ، سطوح مختلف ماسک مورد نیاز است. به عنوان مثال ، نقش ها و مجوزهای مختلف ممکن است طرح های مختلف نقاب سازی را اجرا کند.
گزارش داده ها و محصولات ماسک پردازش محصولات
چنین سناریوهایی عمدتاً شامل محصولات نظارت بر داده های داخلی یا بیلبورد ، محصولات داده های خدمات خارجی و گزارش های مبتنی بر تجزیه و تحلیل داده ها ، مانند گزارش های تجاری و بررسی پروژه است.
3. راه حل ماسک داده
طرح های ماسک زدن به داده های متداول عبارتند از: عدم اعتبار ، مقدار تصادفی ، جایگزینی داده ها ، رمزگذاری متقارن ، مقدار متوسط ، جبران و گرد و غیره.
بی اعتبار: عدم اعتبار به رمزگذاری ، کوتاه شدن یا پنهان کردن داده های حساس اشاره دارد. این طرح معمولاً داده های واقعی را با نمادهای خاص جایگزین می کند (مانند *). این عمل ساده است ، اما کاربران نمی توانند قالب داده های اصلی را بدانند ، که ممکن است بر برنامه های داده بعدی تأثیر بگذارد.
مقدار تصادفی: مقدار تصادفی به جایگزینی تصادفی داده های حساس اشاره دارد (اعداد جایگزین ارقام ، حروف جایگزین حروف و کاراکترها جایگزین کاراکترها می شوند). این روش پوششی ، قالب داده های حساس را تا حدی تضمین می کند و برنامه داده های بعدی را تسهیل می کند. برای برخی از کلمات معنی دار ، مانند نام افراد و مکان ها ممکن است فرهنگ لغت های نقاب زدن مورد نیاز باشد.
تعویض داده ها: جایگزینی داده ها شبیه به پوشش مقادیر تهی و تصادفی است ، به جز این که به جای استفاده از کاراکترهای خاص یا مقادیر تصادفی ، داده های پوششی با یک مقدار خاص جایگزین می شوند.
رمزگذاری متقارن: رمزگذاری متقارن یک روش ویژه ماسک برگشت پذیر است. این داده های حساس را از طریق کلیدهای رمزگذاری و الگوریتم ها رمزگذاری می کند. قالب Ciphertext با داده های اصلی در قوانین منطقی سازگار است.
میانگین: طرح متوسط اغلب در سناریوهای آماری استفاده می شود. برای داده های عددی ، ابتدا میانگین آنها را محاسبه می کنیم و سپس مقادیر حساس را به طور تصادفی در اطراف میانگین توزیع می کنیم ، بنابراین جمع داده ها را ثابت نگه می داریم.
جبران و گرد: این روش داده های دیجیتالی را با تغییر تصادفی تغییر می دهد. گردآوری جبران ، ضمن حفظ امنیت داده ها ، که به داده های واقعی نزدیک تر از طرح های قبلی است ، صحت تقریبی دامنه را تضمین می کند و در سناریوی تجزیه و تحلیل داده های بزرگ از اهمیت زیادی برخوردار است.
مدل توصیه "ML-NPB-5660"برای پوشش داده
4. تکنیک های ماسک زدن به داده های متداول
(1). تکنیک های آماری
نمونه گیری داده ها و تجمع داده ها
- نمونه گیری داده ها: تجزیه و تحلیل و ارزیابی داده های اصلی مجموعه با انتخاب زیر مجموعه نماینده مجموعه داده ها یک روش مهم برای بهبود اثربخشی تکنیک های شناسایی است.
- جمع آوری داده ها: به عنوان مجموعه ای از تکنیک های آماری (مانند جمع بندی ، شمارش ، میانگین ، حداکثر و حداقل) که برای ویژگی ها در میکروداتا اعمال می شود ، نتیجه نماینده کلیه سوابق موجود در مجموعه داده های اصلی است.
(2). رمز رمزنگاری
رمزنگاری یک روش متداول برای حساسیت زدن یا تقویت اثربخشی حساسیت زدایی است. انواع مختلف الگوریتم های رمزگذاری می توانند به اثرات حساسیت زدایی مختلف دست یابند.
- رمزگذاری قطعی: یک رمزگذاری متقارن غیر تصادفی. این معمولاً داده های شناسه را پردازش می کند و می تواند در صورت لزوم رمزگذاری متن را به شناسه اصلی رمزگشایی و بازگرداند ، اما کلید باید به درستی محافظت شود.
- رمزگذاری برگشت ناپذیر: از عملکرد هش برای پردازش داده ها استفاده می شود ، که معمولاً برای داده های شناسه استفاده می شود. نمی توان مستقیماً رمزگشایی کرد و رابطه نقشه برداری باید ذخیره شود. علاوه بر این ، به دلیل ویژگی عملکرد هش ، ممکن است برخورد داده ها رخ دهد.
- رمزگذاری Homomorphic: از الگوریتم Homomorphic Ciphertext استفاده می شود. ویژگی آن این است که نتیجه عملکرد رمزنگاری همانند عملکرد ساده پس از رمزگشایی است. بنابراین ، معمولاً برای پردازش زمینه های عددی مورد استفاده قرار می گیرد ، اما به دلایل عملکرد به طور گسترده ای مورد استفاده قرار نمی گیرد.
(3). فناوری سیستم
فناوری سرکوب موارد داده ای را حذف یا محافظت می کند که حفاظت از حریم خصوصی را برآورده نمی کند ، اما آنها را منتشر نمی کند.
- نقاب سازی: به متداول ترین روش حساسیت زدایی برای ماسک مقدار ویژگی مانند شماره حریف اشاره دارد ، کارت شناسایی با ستاره مشخص می شود ، یا آدرس کوتاه می شود.
- سرکوب محلی: به فرآیند حذف مقادیر خاص ویژگی ها (ستون ها) ، از بین بردن زمینه های داده غیر ضروری اشاره دارد.
- سرکوب ضبط: به روند حذف سوابق خاص (ردیف) ، حذف سوابق داده های غیر ضروری اشاره دارد.
(4). فناوری نام مستعار
Pseudomanning یک تکنیک تشخیصی است که از یک نام مستعار برای جایگزینی یک شناسه مستقیم (یا سایر شناسه های حساس) استفاده می کند. تکنیک های نام مستعار به جای شناسه های مستقیم یا حساس ، شناسه های منحصر به فردی را برای هر موضوع اطلاعات فردی ایجاد می کنند.
- این می تواند مقادیر تصادفی را به طور مستقل تولید کند تا با شناسه اصلی مطابقت داشته باشد ، جدول نقشه برداری را ذخیره کرده و دسترسی به جدول نقشه برداری را کنترل کنید.
- همچنین می توانید از رمزگذاری برای تولید نام مستعار استفاده کنید ، اما باید کلید رمزگشایی را به درستی نگه دارید.
این فناوری به طور گسترده ای در مورد تعداد زیادی از کاربران داده مستقل مانند OpenID در سناریوی بستر باز استفاده می شود ، جایی که توسعه دهندگان مختلف برای همان کاربر OpenID های مختلف را بدست می آورند.
(5). تکنیک های تعمیم
تکنیک عمومی سازی به یک تکنیک تشخیصی اشاره دارد که باعث کاهش دانه بندی ویژگی های منتخب در یک مجموعه داده می شود و توصیف کلی و انتزاعی تری از داده ها را ارائه می دهد. فناوری عمومی سازی به راحتی قابل اجرا است و می تواند از اصالت داده های سطح رکورد محافظت کند. معمولاً در محصولات داده یا گزارش های داده استفاده می شود.
- گرد: شامل انتخاب یک پایه گرد برای ویژگی انتخاب شده ، مانند پزشکی قانونی رو به بالا یا رو به پایین ، نتایج 100 ، 500 ، 1K و 10K است
- تکنیک های کدگذاری بالا و پایین: مقادیر بالا (یا پایین) آستانه را با آستانه ای که سطح بالا (یا پایین) را نشان می دهد ، جایگزین کنید و نتیجه "بالاتر از x" یا "زیر x" را به دست آورد
(6). تکنیک های تصادفی
به عنوان نوعی تکنیک شناسایی ، فناوری تصادفی به اصلاح ارزش یک ویژگی از طریق تصادفی اشاره دارد ، به طوری که مقدار پس از تصادفی با مقدار واقعی اصلی متفاوت است. این فرآیند توانایی یک مهاجم را برای استخراج مقدار ویژگی از سایر مقادیر ویژگی در همان سوابق داده کاهش می دهد ، اما بر صحت داده های حاصل تأثیر می گذارد ، که با داده های آزمون تولید مشترک است.
زمان پست: سپتامبر -27-2022