فناوری و راه حل پوشش داده در کارگزار بسته شبکه چیست؟

1. مفهوم پوشش داده ها

پوشش داده به نام پوشاندن داده نیز شناخته می شود. این یک روش فنی برای تبدیل، تغییر یا پوشش داده‌های حساس مانند شماره تلفن همراه، شماره کارت بانکی و سایر اطلاعات است، زمانی که قوانین و سیاست‌های پنهان‌کاری را ارائه کرده‌ایم. این تکنیک در درجه اول برای جلوگیری از استفاده مستقیم از داده های حساس در محیط های غیر قابل اعتماد استفاده می شود.

اصل پوشش داده ها: پوشش داده باید ویژگی های داده های اصلی، قوانین تجاری و ارتباط داده ها را حفظ کند تا اطمینان حاصل شود که توسعه، آزمایش و تجزیه و تحلیل بعدی داده تحت تأثیر پوشش قرار نمی گیرد. اطمینان از سازگاری و اعتبار داده ها قبل و بعد از پوشش.

2. طبقه بندی پوشش داده ها

پوشش داده ها را می توان به پوشاندن داده های ایستا (SDM) و پوشش داده پویا (DDM) تقسیم کرد.

پوشش داده استاتیک (SDM): پوشش داده های ایستا مستلزم ایجاد یک پایگاه داده محیط غیرتولیدی جدید برای جداسازی از محیط تولید است. داده های حساس از پایگاه داده تولید استخراج شده و سپس در پایگاه داده غیر تولیدی ذخیره می شود. به این ترتیب داده های حساسیت زدایی شده از محیط تولید جدا می شوند که نیازهای کسب و کار را برآورده می کند و امنیت داده های تولید را تضمین می کند.

SDM

پوشش داده پویا (DDM): عموماً در محیط تولید برای حساسیت زدایی از داده های حساس در زمان واقعی استفاده می شود. گاهی اوقات، سطوح مختلف پوشش برای خواندن داده های حساس یکسان در موقعیت های مختلف مورد نیاز است. برای مثال، نقش‌ها و مجوزهای مختلف ممکن است طرح‌های پوشاندن متفاوتی را پیاده‌سازی کنند.

DDM

برنامه گزارش دهی و پوشش داده محصولات

چنین سناریوهایی عمدتاً شامل محصولات نظارت بر داده های داخلی یا بیلبوردها، محصولات داده خدمات خارجی و گزارش های مبتنی بر تجزیه و تحلیل داده ها، مانند گزارش های تجاری و بررسی پروژه می شود.

پوشش دهی محصول گزارش دهی

3. راه حل پوشش داده ها

طرح‌های پوشش داده‌های متداول عبارتند از: عدم اعتبار، مقدار تصادفی، جایگزینی داده، رمزگذاری متقارن، مقدار متوسط، افست و گرد کردن و غیره.

باطل شدن: نامعتبر به رمزگذاری، کوتاه کردن یا پنهان کردن داده های حساس اشاره دارد. این طرح معمولاً داده های واقعی را با نمادهای خاص (مانند *) جایگزین می کند. این عملیات ساده است، اما کاربران نمی توانند فرمت داده های اصلی را بدانند، که ممکن است بر برنامه های داده بعدی تأثیر بگذارد.

مقدار تصادفی: مقدار تصادفی به جایگزینی تصادفی داده های حساس اشاره دارد (اعداد جایگزین ارقام، حروف جایگزین حروف و کاراکترها جایگزین کاراکترها می شوند). این روش پوشاندن فرمت داده های حساس را تا حدی تضمین می کند و کاربرد بعدی داده ها را تسهیل می کند. ممکن است برای برخی از کلمات معنی دار، مانند نام افراد و مکان ها، به فرهنگ لغت های پوشاننده نیاز باشد.

جایگزینی داده ها: جایگزینی داده ها شبیه به پوشاندن مقادیر تهی و تصادفی است، با این تفاوت که به جای استفاده از کاراکترهای خاص یا مقادیر تصادفی، داده های پوشاننده با یک مقدار خاص جایگزین می شود.

رمزگذاری متقارن: رمزگذاری متقارن یک روش خاص پوشش دهی برگشت پذیر است. داده های حساس را از طریق کلیدها و الگوریتم های رمزگذاری رمزگذاری می کند. قالب متن رمزی با داده های اصلی در قوانین منطقی سازگار است.

میانگین: طرح میانگین اغلب در سناریوهای آماری استفاده می شود. برای داده های عددی، ابتدا میانگین آنها را محاسبه می کنیم و سپس مقادیر حساسیت زدایی شده را به طور تصادفی حول میانگین توزیع می کنیم، بنابراین مجموع داده ها را ثابت نگه می داریم.

افست و گرد کردن: این روش داده های دیجیتال را با تغییر تصادفی تغییر می دهد. گرد کردن افست اعتبار تقریبی محدوده را تضمین می کند و در عین حال امنیت داده ها را حفظ می کند، که نسبت به طرح های قبلی به داده های واقعی نزدیک تر است و در سناریوی تجزیه و تحلیل داده های بزرگ اهمیت زیادی دارد.

ML-NPB-5660-数据脱敏

مدل پیشنهادی "ML-NPB-5660"برای پوشش داده ها

4. روش‌های پوشش داده‌ای که معمولاً استفاده می‌شود

(1). تکنیک های آماری

نمونه گیری داده ها و تجمیع داده ها

- نمونه گیری داده ها: تجزیه و تحلیل و ارزیابی مجموعه داده های اصلی با انتخاب یک زیرمجموعه نماینده از مجموعه داده ها، روش مهمی برای بهبود اثربخشی تکنیک های شناسایی زدایی است.

- تجمیع داده ها: به عنوان مجموعه ای از تکنیک های آماری (مانند جمع، شمارش، میانگین، حداکثر و حداقل) اعمال شده برای ویژگی ها در ریزداده ها، نتیجه نماینده تمام رکوردهای مجموعه داده های اصلی است.

(2). رمزنگاری

رمزنگاری یک روش رایج برای حساسیت زدایی یا افزایش اثربخشی حساسیت زدایی است. انواع مختلف الگوریتم های رمزگذاری می توانند به اثرات حساسیت زدایی متفاوتی دست یابند.

- رمزگذاری قطعی: یک رمزگذاری متقارن غیر تصادفی. معمولاً داده‌های شناسه را پردازش می‌کند و می‌تواند در صورت لزوم متن رمز را رمزگشایی و به شناسه اصلی بازگرداند، اما کلید باید به درستی محافظت شود.

- رمزگذاری برگشت ناپذیر: تابع هش برای پردازش داده ها استفاده می شود که معمولاً برای داده های ID استفاده می شود. نمی توان آن را مستقیماً رمزگشایی کرد و رابطه نقشه برداری باید ذخیره شود. علاوه بر این، به دلیل ویژگی تابع هش، ممکن است برخورد داده ها رخ دهد.

- رمزگذاری هممورفیک: از الگوریتم هم شکل متن رمزی استفاده می شود. ویژگی آن این است که نتیجه عملیات متن رمزی با عملیات متن ساده پس از رمزگشایی یکسان است. بنابراین، معمولاً برای پردازش فیلدهای عددی استفاده می شود، اما به دلایل عملکرد به طور گسترده ای مورد استفاده قرار نمی گیرد.

(3). فناوری سیستم

فناوری سرکوب، موارد داده‌ای را که از حفاظت از حریم خصوصی برخوردار نیستند حذف یا محافظت می‌کند، اما آنها را منتشر نمی‌کند.

- پوشش: به متداول ترین روش حساسیت زدایی برای پنهان کردن مقدار مشخصه اشاره دارد، مانند شماره حریف، کارت شناسایی با ستاره مشخص شده است یا آدرس کوتاه شده است.

- سرکوب محلی: به فرآیند حذف مقادیر مشخصه خاص (ستون ها)، حذف فیلدهای داده غیر ضروری اشاره دارد.

- سرکوب رکورد: به فرآیند حذف رکوردهای خاص (ردیف ها)، حذف رکوردهای داده های غیر ضروری اشاره دارد.

(4). نام مستعار فناوری

Pseudomanning یک تکنیک شناسایی زدایی است که از یک نام مستعار برای جایگزینی یک شناسه مستقیم (یا شناسه حساس دیگر) استفاده می کند. تکنیک‌های نام مستعار به جای شناسه‌های مستقیم یا حساس، شناسه‌های منحصربه‌فردی برای هر موضوع اطلاعاتی ایجاد می‌کنند.

- می تواند مقادیر تصادفی را به طور مستقل برای مطابقت با شناسه اصلی ایجاد کند، جدول نگاشت را ذخیره کند و دسترسی به جدول نگاشت را به شدت کنترل کند.

- همچنین می توانید از رمزگذاری برای تولید نام مستعار استفاده کنید، اما باید کلید رمزگشایی را به درستی نگه دارید.

این فناوری به طور گسترده در مورد تعداد زیادی از کاربران داده مستقل استفاده می شود، مانند OpenID در سناریوی پلت فرم باز، که در آن توسعه دهندگان مختلف Openid های متفاوتی را برای یک کاربر دریافت می کنند.

(5). تکنیک های تعمیم

تکنیک تعمیم به یک تکنیک شناسایی زدایی اشاره دارد که دانه بندی ویژگی های انتخاب شده در یک مجموعه داده را کاهش می دهد و توصیف کلی و انتزاعی بیشتری از داده ها ارائه می دهد. پیاده سازی فناوری تعمیم آسان است و می تواند از صحت داده های سطح رکورد محافظت کند. معمولاً در محصولات داده یا گزارشات داده استفاده می شود.

- گرد کردن: شامل انتخاب یک پایه گرد کردن برای ویژگی انتخاب شده، مانند پزشکی قانونی رو به بالا یا پایین، به دست آوردن نتایج 100، 500، 1K و 10K

- تکنیک‌های کدگذاری بالا و پایین: مقادیر بالای (یا پایین) آستانه را با آستانه‌ای که سطح بالا (یا پایین) را نشان می‌دهد جایگزین کنید، که نتیجه «بالاتر از X» یا «زیر X» به دست می‌آید.

(6). تکنیک های تصادفی سازی

به عنوان نوعی تکنیک شناسایی زدایی، فناوری تصادفی سازی به تغییر مقدار یک ویژگی از طریق تصادفی سازی اشاره دارد، به طوری که مقدار پس از تصادفی سازی با مقدار واقعی اصلی متفاوت باشد. این فرآیند توانایی مهاجم را برای استخراج یک مقدار مشخصه از سایر مقادیر مشخصه در همان رکورد داده کاهش می دهد، اما بر صحت داده های حاصل تأثیر می گذارد، که با داده های آزمایش تولید رایج است.


زمان ارسال: سپتامبر 27-2022